Dehenken 「テキスト抽出技術」は"Denkenken"の独自ブランドです。

DocCat

高精度・超高速テキスト抽出ソフトウェア

概要・特徴

メールと圧縮ファイルの階層展開ライブラリ

DocCatは、MS-Office、PDF、一太郎等の文書ファイルからテキストを抽出するソフトウェアです。UNIX のcat コマンドのような使い勝手のイメージで、テキスト化を行うことができます。文書フォーマットの内部のバイナリデータを解析し、プロパティ情報とテキスト情報を高精度・超高速に抽出します。全文検索や添付ファイルのテキスト化など、多くのシーンでご使用いただいているテキストフィルタのコマンドです。

多彩な出力のためのオプション

  • プロパティ情報を出力することができます。MS-Office や PDF ファイルでは、プロパティに表示される作者、会社名といった情報を出力することができます。
  • さまざまな文字コードを自動判別します。テキストの文字コードは、日本語の場合、JISコード(ISO-2022-JP)、EUC-JP、Shift_JIS、UTF-8、UTF-16 などの文字コードが利用されますが、デ変研TFライブラリ は自動判定(一部優先判定)することができます。

日本語文字コードの扱いに精通

DocCatの内部処理の文字コードは UTF-16 を使用しています。出力時には、さまざまな日本で使用されている文字コードにすることができます。出力時の文字コードは JIS X 0213:2004 (デフォルト)を指定によりWindows-31J(CP932) に切り替えることができます。

安全のための制限設定(doccat.cong)

テキスト抽出時の使用リソースの限界をあらかじめ制限設定ファイル(doccat.conf)に記述することにより、リソースの消費量を制限できます。制限できるのは、文書ファイルサイズの制限(MAX_FILE_SIZE)、出力テキストの使用バッファサイズの制限(MAX_BUF_SIZE)、抽出テキストサイズ制限(MAX_TEXT_SIZE)の3つです。

MS-Office関連ファイルに関するパスワード保護等について

Word 読み取りパスワードによる保護 テキスト抽出できません
  書き込みパスワードによる保護 テキスト抽出します
  読み書きパスワードによる保護 テキスト抽出できません
Excel ブック保護 テキスト抽出します
  シート保護 テキスト抽出します
  読み取りパスワードによる保護 テキスト抽出できません
  書き込みパスワードによる保護 テキスト抽出します
  読み書きパスワードによる保護 テキスト抽出できません
PowerPoint 読み取りパスワードによる保護 テキスト抽出できません
  書き込みパスワードによる保護 テキスト抽出します
  読み書きパスワードによる保護 テキスト抽出できません

* MS-PowerPoint for Macは読み取りパスワードによる保護の機能がありません。

PDF 40bitsRC4 テキスト抽出します(*1)
  128bitsRC4 テキスト抽出します(*1)
  128bitsAES テキスト抽出します(*1)
  256bitsAES テキスト抽出します(*1)(*2)

PDFファイルの暗号方式に関しては、デコードする際に暗号方式をDocCatの内部で自動判別しています。
(*1)正しいユーザーパスワードを指定することが必要です。
(*2)Acrobat X 以降で作成されたものは未対応です。詳しくはお問い合わせください。

年間保守サービスについて
年間保守サービスの内容につきましては「年間保守サービスについて」をご参照下さい。
製品に関するお問い合わせ
詳細をご案内させていただきますので、まずはお気軽にご相談ください。