Dehenken 「テキスト抽出技術」は"Denkenken"の独自ブランドです。

デ変研MFXライブラリ

メールと圧縮ファイルの階層展開ライブラリ

概要・特徴

メールと圧縮ファイルの階層展開ライブラリ

デ変研MFXライブラリは、メールからヘッダ・本文・添付ファイルの情報を取り出す機能と、圧縮ファイルを展開する機能を総合したライブラリです。メールと圧縮ファイルを内部領域に仮展開し、1つ1つのメールの内部情報を取り出すことができます。さらに、複合メール形式のファイル内部に納められたメール情報や、その圧縮前のファイルもひとつひとつ順に取り出すことができます。

1つのメール展開 EML、OutlookのMSG形式(デ変研MFXライブラリ multi-language版のみ対応)
複合メール形式 PST (Outlook 32 / 64 bit) / DBX (Outlook Express) / mbox / Thunderbird / Becky!
※Becky!については添付ファイルの展開は対応していません)
圧縮ファイル zip (winzip / pkzip : 圧縮形式 / 自己解凍形式)
lha (lh1 / lh5 / lh6 / lh7 : 圧縮形式 / 自己解凍形式)
tar+gzip / tgz / gzip
rar (圧縮形式 / 自己解凍形式)
bzip2
※それぞれの圧縮形式において、パスワード付きのものを除きます
アーカイブ形式 tar / gnutar
添付ファイル展開 添付ファイルがMS-Office (Word / Excel / PowerPoint) / PDF ファイルなどの場合、デ変研TFライブラリと連動して、テキスト抽出後のファイルも取り出すことができます。
(例)ヘッダのIDは1、本文IDは2、1つ目の添付されたPDFのIDは3と付与されます。
圧縮ファイル展開 添付ファイルが圧縮ファイルであった場合に、圧縮ファイル内を展開して取り出しできます。
添付ファイル中にメールファイルの添付や、圧縮内にメールファイルがあった場合、もしくは、添付ファイルの中にzip 圧縮があり、そのなかに lha 圧縮があるような階層圧縮ファイルも、展開して順に取り出すことができます。
(例)メールの添付1つ目のzipファイル中の先頭のPDFファイルIDは3.1と付与されます。

開発生産性を高める使用環境の提供

本ライブラリを用いてアプリケーションを開発するOEMユーザを支援するために、開発しやすいように工夫と様々な情報提供を行っています。API使用時のサンプルソース(再利用できる使用権付与)もご提供しております。展開した1つのメールファイルのファイル名を指定してAPIに与え、ライブラリがメール形式や圧縮形式を自動判別し展開します。このときのファイルの判定にはサフィックス(接尾文字)の情報を使いません。

安全のための限界値設定

本ライブラリはメールや圧縮展開時に著しくリソースを消費する場合がありますので、使用リソースの限界をあらかじめ制限設定することによって、安全に動作できるようにしています。各制限について紹介します。

● メモリ使用制限 (limit_total_memory)
ユーザは、本ライブラリ利用時に使用するメモリ量の制限値を指定することができます。指定された値まではメモリ上に情報を展開し、高速に動作できるようにします。制限を超えるデータの展開時には、あらかじめ指定されたテンポラリ・フォルダ領域に展開後ファイルを作成し、展開速度が遅くなってもシステムのリソースの範囲内で動作します。
● 1つのファイルの制限(limit_one_file)
ユーザは、本ライブラリに1つのファイルを展開するときの最大サイズを指定することができます。圧縮ファイル展開をするとき、展開後の1つのサイズがこの値を超えるファイルであれば制限値オーバのエラーを返し、ファイルの作成は行いません。圧縮展開後の1つのサイズが膨大になる場合でも、安全に動作させるためのものです。
● ファイルの使用制限(limit_total_file)
ユーザは、本ライブラリで展開後のファイルサイズの合計に対して、制限値を指定することができます。ファイルの圧縮展開を繰り返すとき、展開後のサイズの合計と制限値を比較して、制限値内に収まる範囲しか展開をしません。制限値を超えた場合は制限値オーバを返し、それ以上のファイルの展開は行いません。
● ヘッダの最大値の指定(limit_eml_header)
ユーザは、本ライブラリにメールヘッダの最大値を指定することができます。メールのヘッダ取り出し時には1行ずつ追加処理を行い、制限値を超えた場合、制限値オーバを返します。ユーザは、制限値オーバで返ってきたとしても、超えるまでに処理したヘッダ情報は、ヘッダとして取り扱うことができます。
● メール本文の最大値の指定(limit_eml_body)
ユーザは、本ライブラリにメール本文の最大値を指定することができます。メールの本文(ボディ)取り出し時には1行ずつ追加処理を行い、制限値を超えた場合、制限値オーバを返します。ユーザは、制限値オーバで返ってきたとしても、超えるまでに処理したメール本文は、本文として取り扱うことができます
● メールの入れ子展開の階層指定(limit_level)
ユーザは、本ライブラリにメールや圧縮ファイルの展開の入れ子構造の展開数を指定できます。この展開数を超える入れ子構造上のデータ展開は行いません。展開の階層指定動作はレベル保証をしています。レベル保証とは、元データのメール添付順や圧縮ファイルの出現順が変わっても、展開する数については常に同数にすることをいいます。この階層指定はエラーメールの処理で何重にも添付された階層メールの展開に有効な制限で、システムリソースの一時的大量消費を防止することができます。
● テキストとして取り出す文字コードの指定 (language)
ユーザは、本ライブラリでテキストとして取り出す文字コードを指定することができます。指定できる文字コードは EUC-JP / SJIS / UTF-8 / UTF-16 です。
年間保守サービスについて
年間保守サービスの内容につきましては「年間保守サービスについて」をご参照下さい。
製品に関するお問い合わせ
詳細をご案内させていただきますので、まずはお気軽にご相談ください。