Dehenken 「テキスト抽出技術」は"Denkenken"の独自ブランドです。

デ変研TFライブラリ

超高速テキスト抽出ライブラリ

概要・特徴

高精度・超高速テキスト抽出ライブラリ

デ変研TFライブラリは、MS-Office、PDF、一太郎等の文書ファイルからテキストを抽出する、組込型のテキストフィルタ(Text Filter)ライブラリです。フォーマットの内部のバイナリデータを解析し、プロパティ情報とテキスト情報を抽出します。その圧倒的な高速性は、全文検索におけるインデキシング生成時間の大幅な短縮化を実現します。

業界で多数の導入実績

本ライブラリは、テキスト抽出ソフトウェアとして業界での多数の導入実績があります。全文検索ソフトウェア、セキュリティ監査ソフトウェア、ケータイ向けMS-Word / PDF 添付文書中テキスト表示等に、テキストを抽出する部品(ライブラリ)としてご採用いただいています。

多彩な出力のためのオプション

  • プロパティ情報を出力することができます。MS-Office や PDF ファイルでは、プロパティに表示される作者、会社名といった情報を出力することができます。
  • さまざまな文字コードを自動判別します。テキストの文字コードは、日本語の場合、JISコード(ISO-2022-JP)、EUC-JP、Shift_JIS、UTF-8、UTF-16 などの文字コードが利用されますが、デ変研TFライブラリ は自動判定(一部優先判定)することができます。

開発生産性を高める使用環境の提供

本ライブラリを用いてアプリケーションを開発するOEMユーザ様を支援するために、開発しやすいように工夫と様々な情報提供を行っています。API使用時のサンプルソース(再利用できる使用権付与)もご提供しております。テキスト抽出したいファイルをオンメモリにてAPIに与え、ライブラリがファイルタイプを自動判別しテキスト抽出します。このときのファイルの判定には、サフィックス(接尾文字)の情報を使いません。

マルチスレッドに対応

本ライブラリは、CPU数やコア数に応じてテキスト抽出の分散処理による速度の向上ができるよう、マルチスレッドに対応しています(マルチスレッドセーフ)。

ユニコード対応とローカル文字コードの対応

本ライブラリは、日本語文字コードの2つの方式 Windows-31J(CP932)と JIS X0213:2004に対応しています。これらの文字コードの変換を指示した上で、JIS (ISO-2022-JP) / EUC-JP / Shift_JIS / UTF-8 / UTF-16 の変換を行います。本ライブラリは、将来的にはヨーロッパ圏の文字コード ISO-8859 や、アジアの中国語、韓国語についても対応する予定です( GB2312 / GB18030 / KSC 5601 / KS X 1001 / Big5 / CPシングルバイト・ダブルバイト 等)。

全のための制限設定(doccat.conf)

テキスト抽出時の使用リソースの限界を、あらかじめ制限設定ファイル(doccat.conf)に記述することにより、リソースの消費量を制限できます。制限できるのは、文書ファイルサイズの制限(MAX_FILE_SIZE)、出力テキストの使用バッファサイズの制限(MAX_BUF_SIZE)、抽出テキストサイズ制限(MAX_TEXT_SIZE)の3つです。

MS-Office関連ファイルに関するパスワード保護等について

Word 読み取りパスワードによる保護 テキスト抽出できません
  書き込みパスワードによる保護 テキスト抽出します
  読み書きパスワードによる保護 テキスト抽出できません
Excel ブック保護 テキスト抽出します
  シート保護 テキスト抽出します
  読み取りパスワードによる保護 テキスト抽出できません
  書き込みパスワードによる保護 テキスト抽出します
  読み書きパスワードによる保護 テキスト抽出できません
PowerPoint 読み取りパスワードによる保護 テキスト抽出できません
  書き込みパスワードによる保護 テキスト抽出します
  読み書きパスワードによる保護 テキスト抽出できません

* MS-PowerPoint for Macは読み取りパスワードによる保護の機能がありません。

PDF 40bitsRC4 テキスト抽出します(*1)
  128bitsRC4 テキスト抽出します(*1)
  128bitsAES テキスト抽出します(*1)
  256bitsAES テキスト抽出します(*1)(*2)

PDFファイルの暗号方式に関しては、デコードする際に暗号方式をデ変研TFライブラリの内部で自動判別しています。
(*1)正しいユーザーパスワードを指定することが必要です。
(*2)Acrobat X 以降で作成されたものは未対応です。詳しくはお問い合わせください。

年間保守サービスについて
年間保守サービスの内容につきましては「年間保守サービスについて」をご参照下さい。
製品に関するお問い合わせ
詳細をご案内させていただきますので、まずはお気軽にご相談ください。