Dehenken 「テキスト抽出技術」は"Denkenken"の独自ブランドです。

Dehenken Language Flow

大量ファイルからの複数キーワード検索ツール

概要・特徴

文字コードと言語の判別ソフトウェア

Dehenken Language Flow(デ変研LFライブラリ、以下、DLF)は、言語の記憶辞書(Dictionary of Memorized Languages)を用いて、言語の流れ処理(Stream Processing of Memorized Languages)により、ファイルに書かれたテキストの文字データを順に照合させ、文字コードや言語を検出し、検出後のスコア値により判別のための情報を得るソフトウェアです。

言語は世界の話者人口で99.2%に対応

DLFは、世界の話者人口でみたときの認識対象言語のシェアは99.2%(※)です。
※株式会社データ変換研究所(以下Dehenken)の調査集計値

<話者人口について>
言語の重要度を決める要因に話者の数があります。以下の情報は1993年の各言語の話者人口の調査を公表しているもので、その言語が公用語となっている国の人口のランキングです。世界中に公用語としては140程度の言語が存在するといわれていますが、次の表の調査によると上位20言語の話者数が53億人となります。(以下、括弧内の単位は100万人)
●英語 (1,400) ●中国語(1,000) ●ヒンディー語(700) ●スペイン語(280)
●ロシア語 (270) ●フランス語 (220) ●アラビア語 (170) ●ポルトガル語 (160)
●マレー語 (160) ●ベンガル語 (150) ●日本語 (120) ●ドイツ語 (100)
●ウルドゥ語 (85) ●イタリア語 (60) ●韓国語 (60) ●ベトナム語 (60)
●ペルシア語 (55) ●タガログ語 (50) ●タイ語 (50) ●トルコ語(50)
出典:ケンブリッジ大学出版局「THE CAMBRIDGE FACTFINDER」1993年刊より

文字コードは欧米とアジアに対応

DLFが対応している文字コードはUnicodeの符号化方式であるUTF-8 / UTF-16 (LE / BE) と、マイクロソフト社のコードページのうち、中欧とアジアのダブルバイトのものに対応しています。さらに日本語のEUC-JPとロシア語のKOI-8とISO-8859-5に対応しています。

対象ファイルはバイナリデータにも対応

DLFが文字コードや言語を検出できる対象データは、テキストファイルはもちろんのこと、バイナリデータにも対応しています。

ユーザにより辞書の追加・作成が可能

DLFの言語の記憶辞書は、辞書作成コマンド(ddic)にてユーザ独自の辞書を作成することができます。サンプル辞書ファイルが用意されていますので、それを参考にして独自のパターンマッチ辞書を作成することができます。

高速パターンマッチ技術は特許を取得したものを使用

DLFは、Dehenkenの高速パターンマッチ技術を使用しています(特許4152273号パターン照合方法、パターン照合装置)。この技術は言語辞書が大量の文字情報があっても高速にパターン照合するものです。パターン照合はパスワン(Pass one)処理によるもので1回の処理の通過で文字コードと言語の検出とそのスコア値の記憶を行います。

主要国 文字コードの概説

ASCII(英国・米国など)
ASCIIコード(American Standard Code for Information Interchange)は1963年にANSIによって制定され、その後1967年にISO-646として勧告されました。世界中で使用される文字コードの符号化方式において、7bit(128番目)まではASCIIコードが使用されています。
Latin1 (フランス・ドイツ・イタリア・スペインなど)
Latin1は、1984年にECMA-94として制定され、1987年にISO-8859-1となりました。WindowsではCP1252と定めています。ヨーロッパ全体の文字やアジアのものを含めて表現する場合にはUTF-8を使用します。
Latin2 (ハンガリー・ポーランド・ルーマニアなど)
Latin2は、1987年に国際規格として制定されISO-8859-2となりました。WindowsではCP1250と定めています。こちらもLatin1や他の言語を表現する場合にはUTF-8を使用しています。
Cyrillic(キリル:ロシア・ウクライナ・ベラルーシ・ブルガリア)
キリル文字(Cyrillic)といわれるロシア語でよく知られている文字コードは、KOI8・ISO-8859-5・CP1251・UTF-8の4つです。1974年に旧KOI8が設計されました。1988年にソ連政府はISO-8859-5を制定しましたが、事実上普及しませんでした。時を同じくしてロシアのUNIX USER GROUPによりKOI8-Rが使用され始め、1993年にRFC1489に登録されました。これが現在のKOI8-Rとして今も使用されています。ロシアでもUTF-8は国際対応の文字コードとして使用されています。WindowsではCP1251が定められ使用されています。
日本の文字コード
日本は1978年に JIS C 6226が規格化され、第一水準と第二水準の文字により構成された文字コードを使用しています。この文字コードは1983年にJIS X 0208となり、2000年には第三水準と第四水準の文字を追加してJIS X 0213となりました。日本では、メールはJISコード(ISO-2022-jp)が多く、Windows上ではShift_JIS(CP932)、Linux(UNIX)上ではEUC-JP(UTF-8の場合もあります)というように、複数の符号化方式が今も使用されています。
中国の文字コード
中国では中国国家標準を表す「国標(GuoBiao)」の略称で、文字コード規格GBが制定されています。1980年にGB2312、1993年にGB2312 を拡張したGBKが、2000年にGB18030が規格化されました。Windows上ではGBKをもとにCP936として定め使用しています。中国においても中国語以外の表現の場合にはUTF-8が使用されています。
韓国の文字コード
韓国では、ハングルや漢字は韓国の国家規格である韓国産業規格(KS: Korean Industrial Standards)にて1974年にKS C 5601を定めました。1997年に改番されKS X 1001の名称で呼ばれることになりました。Windows上では現代ハングルを含む拡張が行われたCP949が定められています。韓国でも他国語との併用のときにはUTF-8が使用されています。
台湾の文字コード
台湾では、繁体字中国語の文字コード(文字集合)で5大パソコンメーカーであったエイサー(宏碁)、マイタック(神通)、佳佳、ゼロワン(零壱)、FIC(大衆)が共同で1984年にBig5という文字コードを策定しました。Windows上ではCP950と規定されました。台湾においても国際的な表現が必要な場合にはUTF-8が使用されています。
インドの言語
インドでは、中東及びヨーロッパの言葉を取り込んだ複数の言語が使われています。ヒンディー語(490)が4割の話者数を占め、ベンガル語(220)、タミル語(74)、テルグ語(70)、マラーティー語(68)、ウルドゥ語(61)などは比較的多くの話者数がいる言語です(括弧内の数値は百万人単位の話者数。インド以外の話者数を含み2012年4月のネット情報引用)。インドの憲法には22の公用語が指定されましたが、実在する言語は100以上とも言われています。Dehenkenでは、インドの言語の話者数が上位の列挙したものについては、UTF-8で表現できることを確認しています。
世界の言語とUTF-8
UTF-8は、Unicodeを符号化方式にて表現した文字コードです。世界の言語を含んでいるので1つの文字コード上にて表現することができます。メールやホームページの記述などUTF-8が世界中で増加しています。
年間保守サービスについて
年間保守サービスの内容につきましては「年間保守サービスについて」をご参照下さい。
製品に関するお問い合わせ
詳細をご案内させていただきますので、まずはお気軽にご相談ください。