Dehenken 「テキスト抽出技術」は"Denkenken"の独自ブランドです。

Dehenken Language Flow

大量ファイルからの複数キーワード検索ツール

対応言語 • 対応文字コード

対応している言語(話者人口61億人、Dehenken調べ)
●アイスランド語 ●アイルランド語 ●アゼルバイジャン語 ●アフリカーンス語 ●アムハラ語
●アラビア語 ●アルバニア語 ●アルメニア語 ●イタリア語 ●インドネシア語
●ウクライナ語 ●ウズベク語 ●ウルドゥ語 ●エストニア語 ●オランダ語
●カザフ語 ●カタルーニャ語 ●ギリシア語 ●キルギス語 ●グアラニー語
●クメール語 ●グルジア語 ●クロアチア語 ●ケチュア語 ●コンゴ語
●サンゴ語 ●シンハラ語 ●スウェーデン語 ●スペイン語 ●スロバキア語
●スロベニア語 ●スワジ語 ●スワヒリ語 ●セルビア語 ●ソマリ語
●ゾンカ語 ●タイ語 ●タガログ語(フィリピン語) ●タジク語
●タミル語 ●チェコ語 ●チェワ語 ●ツォンガ語 ●ツワナ語
●ティグリニヤ語 ●ディベヒ語 ●テトゥン語 ●デンマーク語 ●ドイツ語
●トルクメン語 ●トルコ語 ●ネパール語 ●ノルウェー語
(ニノーシュク・ブークモール)
●ハイチ語 ●パシュトゥー語 ●ハンガリー語 ●バンバラ語 ●ビルマ語
●ヒンディー語 ●フィンランド語 ●フランス語 ●ブルガリア語 ●ベトナム語
●ヘブライ語 ●ベラルーシ語 ●ペルシア語 ●ベンガル語 ●ポーランド語
●ボスニア語 ●ポルトガル語 ●マケドニア語 ●マルタ語 ●マレー語
●モンゴル語 ●ラーオ語 ●ラテン語 ●ラトビア語 ●リトアニア語
●リンガラ語 ●ルーマニア語 ●ルクセンブルク語 ●ルワンダ語 ●ルンディ語
●ロシア語 ●ロマンシュ語 ●英語 ●中国語 ●台湾語
●韓国語・朝鮮語 ●日本語      
対応していない言語
(2012年2月時点で未対応のもの、話者人口数47百万人、Dehenken調べ)
●アイマラ語 ●ヴェンダ語 ●コサ語
●コモロ語 ●サモア語 ●ズールー語
●ソト語 ●マダガスカル語 ●ンデベレ語
対応文字コード
ユニコード
UTF-8
UTF-16 (LE)
UTF-16 (BE)
マイクロソフトのコードページ SBCS (Single Byte Character Set)
CP1250 (Central Europe)
CP1251 (Cyrillic)
CP1252 (Latin 1)
CP1253 (Greek)
CP1254 (Turkish)
CP1255 (Hebrew)
CP1256 (Arabic)
CP1257 (Baltic)
CP1258 (Vietnam)
CP874 (Thai)
マイクロソフトのコードページ DBCS (Double Byte Character Set)
CP932 (Japanese Shift-JIS)
CP936 (Simplified Chinese GBK)
CP949 (Korean)
CP950 (Traditional Chinese Big5)
ISO-8859(ISOとIECが合同で定めた8ビット文字コードの標準)
ISO-8859-1 (Latin1)
ISO-8859-2 (Latin2)
ISO-8859-3 (Latin3)
ISO-8859-4 (Latin4)
ISO-8859-5 (Cyrillic)
ISO-8859-6 (Arabic)
ISO-8859-7 (Greek)
ISO-8859-8 (Hebrew)
ISO-8859-9 (Turkish)
ISO-8859-10 (Nordic)
ISO-8859-11 (Thai)
ISO-8859-12 (Devanagari)
ISO-8859-13 (Baltic Rim)
ISO-8859-14 (Celtic)
ISO-8859-15 (Latin-9)
ISO-8859-16 (Latin-10)
CP1252として対応しています
CP1250として対応しています
南欧言語 → UTF8使用
北欧言語 → UTF8使用
ISO-8859-5に対応しています
CP1256 アラビア語
CP1253として対応しています
CP1255 ヘブライ語
CP1254として対応しています
北欧言語 → UTF8使用
CP874 タイ語
1997年 破棄 (対応しません)
CP1257 バルト語
北欧言語 → UTF8使用
CP1252として対応しています
CP1250として対応しています
上記に含まれないで対象とした文字コード
EUC-JP 日本語EUCコード。日本においてUNIX(Linux)で今も使われているもの。
KOI8 ロシア語(キリル文字)においてASCIIのラテン文字と対応する符号位置に、疑似ローマ字順で並べられているという便利な特性があるために、今も使用されている文字コード。
例)KOI8で表現した"Русский Текст"(ルスキー・テクスト、ロシア語のテキストの意)は、8ビット目を落とすとrUSSKIJ tEKSTになる。
製品に関するお問い合わせ
詳細をご案内させていただきますので、まずはお気軽にご相談ください。