Dehenken 「テキスト抽出技術」は"Denkenken"の独自ブランドです。

デ変研監査ライブラリ

個人情報ファイル検出エンジン

概要・特徴

個人情報ファイル検出エンジン

デ変研監査ライブラリは、ファイル中に存在する人名(名字と名前の組み合わせ)、住所、メールアドレス、郵便番号、電話番号、クレジットカード番号、ID番号を検出するライブラリです。Dehenkenの高速パターンマッチ技術(特許4152273号 パターン照合方法、パターン照合装置)を利用し、1回のパターン照合(パスワン:Pass one)で、個人情報にあたる情報を検出します。さらに、各種辞書と照合させることで精度の水準(レベル)を上げます。また、一定の範囲内であれば群とみなすことで個人情報領域(Personal Zone)を見分け、高度な情報検出をします。

人名は日本人網羅率95%以上に対応)

人名は、名字約3万件、名前約5万件を搭載することにより95%以上の検出率となります。
※Dehenken調査集計値より

対象ファイルはバイナリデータにも対応

文字コードや言語検出は、テキストファイルはもちろんのこと、バイナリデータにも対応しています。

ユーザにより辞書の追加や作成が可能

検出のためのキーワード群を「辞書」といいます。この辞書はテキストファイルにて記述できます。また、このソフトウェアに含まれている辞書作成コマンド(pdic)にてユーザ独自の辞書を作成することができます。あらかじめ用意されているサンプル辞書を参考に、独自のパターンマッチ辞書を作成することができます。

ライブラリ連携による多種類のフォーマット対応

Dehenkenのテキスト抽出技術(デ変研TFライブラリ)とメールの添付や圧縮ファイルの展開技術(デ変研MFXライブラリ)と連携させることで、文書ファイル(MS-Word、PDF、一太郎等)、圧縮ファイル、メール、mboxやpst(Outlook)といった複合メール形式のファイル内部に納められたメール情報についても個人情報の検出対象とすることができます。

複数のAPIを用意

<TGインターフェース>
個人情報を数え上げるために利用するインターフェースです。
<GGインターフェース>
判定基準ファイルを与え、個人情報として収集したい量に達したときに検出を切り上げるためのインターフェースです。
<KIWインターフェース>
ファイル探索、ファイルの内容を展開して文書ファイルからのテキスト抽出、さらにメール複合ファイルであれば1つずつのファイル展開を行い内容を判定基準ファイルにしたがって満たされるまで情報抽出するインターフェースです。

デ変研監査ライブラリの個人情報検出

人名(名字と名前)
名字(29,162件)と名前(男性・女性 合計52,581件)が間を空けずに近接して出現したとき、形成された名字と名前の組み合わせのことを「人名」と定義し、検出します。 辞書の追加により、半角カタカナ表記による人名(名字と名前)、ひらがな表記による人名(名字と名前)を検出することもできます。
住所
漢字で表記された47都道府県名・市町村名(3,959件)・区名(112件)・字名(75,195件)の連続したものを本ソフトウェアでは住所と定義し、検出します。町名とは○○町とする市町村レベルでの町名をいい、字名とは、大字・字・小字に該当する地域名称をさし、番地や丁目という語が後続するものと定義します。
例)東京都港区赤坂5丁目:都道府県名は東京都、市町村名は無し、区名は港区、字名は赤坂ということになります。
メールアドレス
@(アットマーク)前後のメールアドレスとして成立する文字列で、@の後続に1つのccLTD、gLTDと一致する文字列がある場合に検出します。
※ccLTDであれば.co.jp、gLTDであれば.comと一致することをいいます。
郵便番号
3桁と4桁の数字の表記か7桁の数字の表記であり、そのパターンが日本郵便株式会社提供の郵便番号一覧に一致する場合に検出します。
電話番号
数値列で区切る場合と区切らない場合の表記形態がある文字列で、本ソフトウェアの場合には、0もしくは81(81、+81)から続く市外局番といわれる1桁から4桁の数値(1は北海道、9は九州・沖縄で利用等)と後続の6桁から4桁の数値と照合できるもの、あるいは、050(IP電話)と後続の8桁数値、090 / 080 / 070 と後続の8桁数値といった携帯電話番号とされるものを検出します。
※日本国外の地域に関する電話番号の検出についてはお問い合わせ下さい。
クレジットカード番号
数字が4桁ずつ4回並んでいるか、16桁・15桁・14桁の数字の列で先頭の6桁の数字によってカードの発行元会社の情報が特定できたときにクレジットカード番号とします。また、最終1桁の値は、クレジットカードのチェックサム値となるのでそれを確認します。
ID番号
ASCII文字列の任意の羅列をいいます。デ変研監査ライブラリのユーザ辞書中に、#を数字、?を任意のASCIIコードの英数字とした文字列を書き込むことで、パターンマッチしたものをいいます。たとえば、DHK0001という会員ID番号の例でいうと、0001が会員によって異なるとき、DHK####という文字列を辞書に設定することでID番号として検出できます。このときの固定文字列の場合の漢字コードの登録は有効とし、デ変-####という設定も可能です。

レベル処理(個人情報のレベル分け)

本ライブラリでは、一致した文字情報を用いて、各種辞書ごとの判定条件をレベル1, レベル2, レベル3の階層段階に設定したレベル処理を行うことにより、個人情報の確度を大別します。

分類 レベル1 条件 レベル2 条件
人名 名字 / 名前 / ミドルネーム / ファーザーネーム いずれかの辞書の単語に一致した場合 名字 / 名前 / ミドルネーム / ファーザーネーム が近傍範囲※1内に接していた場合(同種を除く)
住所 都道府県 / 市郡町村 / 区/ 字 名 いずれかの辞書の単語に一致した場合 都道府県 / 市郡町村 / 区 / 字 名 が近傍範囲内に接して区切りの大きさ順に並んでいる場合(同種を除く)
メールアドレス @と前後にメールアドレスとして有効な文字列構成が存在した場合 @の後方文字列に、TLDと一致する文字列が存在した場合
クレジットカード番号 14 / 15 / 16 桁の数値列が近傍範囲内にあり、最後の桁がクレジットのチェックデジットと一致した場合 クレジットカード番号(先頭6桁)の辞書との照合によりカード会社の種類が特定された場合
郵便番号 郵便番号辞書に一致する7桁の数字列または3桁-4桁区切りの数字列があった場合 レベル2処理はなし
電話番号 頭が0で始まる10桁または11桁の数値が近傍範囲内に存在した場合(+81の国番号に対応) 2~6桁の電話番号辞書により番号の種類/局番が特定された場合
部署 辞書一致 レベル2処理はなし
役職 辞書一致 レベル2処理はなし
ユーザ定義 ユーザ辞書に一致した場合 レベル2処理はなし


レベル3は、レベル1またはレベル2の人名を元にゾーン※2内に存在する個人情報を一塊にまとめたものを指します。レベル3としてまとめられる情報は、人名・住所・メールアドレス・クレジットカード番号・郵便番号・電話番号・部署・役職の8種類のデータとなります。

※1 近傍範囲:同分類の個人情報をどこまで一塊の情報と判断するかの基準となる距離をいいます。
※2 ゾーン:異なる分類の個人情報をどこまで一塊の情報と判断するかの基準となる距離をいいます。

年間保守サービスについて
年間保守サービスの内容につきましては「年間保守サービスについて」をご参照下さい。
製品に関するお問い合わせ
詳細をご案内させていただきますので、まずはお気軽にご相談ください。