Dehenken 「テキスト抽出技術」は"Denkenken"の独自ブランドです。

TeraMillion

大量ドメインから目的とするURLリストを作成する

概要・特徴

大量ドメインから目的とするURLリストを作成する

TeraMillion(テラミリオン)は、.comや.jp等の大量ドメイン名を収集し、所定のキーワードを含むURLリストを作成したり、目的に合ったホームページを選定することができます。 また、過去の情報との差分をとって、差があれば、知らせたり表示したりする目的で利用することができるプロダクトです。

7つのTeraMillionプロダクト

TeraMillion Domain Crawler 大量ドメイン名の収集と定期的更新

TeraMillion Domain Crawler は、インターネット上のドメインからリンクされているURLを探し出して、クローリング(リンクをたどる操作をすること)を行い、次々にリンクされているURLからドメイン名を見つけることで、世界中のドメイン名を収集するソフトウェアです。また、ドメイン内に複数の企業のトップページがあるような、サブドメインの収集も行えるようにしています。
TeraMillion Domain Crawler は大量のドメインを収集するソフトウェアの開発企画時の名称です。ドメイン名の収集には、Heritrix というインターネットアーカイブのためのオープンソースソフトウェアの一部を利用しています。Heritrixはインターネットアーカイブプロジェクトが名付けたソフトウェアで、古語で女相続人を意味します。

TeraMillion Language Crawler テキストの記述言語の自動判別

TeraMillion Language Crawler は、「Dehenken Language Flow」という高速に動作する言語判別のソフトウェアを装着し、HTMLテキストの記述情報から10ヶ国の言語と、12種類の各国で定義された文字コードを判別することができます。
HTMLから言語を認識することで、言語別にURLを分類することができます。言語別に仕分けられたURLの情報は、CSV形式に出力されます。このときのCSVは、Domain / URL / Time / Status の4つで、Duts形式と呼んでいます。

TeraMillion Dictionary Collector テキストからのメタ情報の抽出

TeraMillion Dictionary Collector は、「MeCab(めかぶ)」という高速に動作する形態素解析ソフトウェアを装備し、HTMLテキストの記述情報からメタ情報を取り出すソフトウェアをいいます。「MeCab」は京都大学とNTTが共同開発したものです。日本語以外の言語の場合、各国別に開発した形態素解析エンジンに置き換えて、各国のそれぞれの言語情報を解析してメタ情報にします。
また、本ソフトウェアは、メタ情報を集めて、会社名、代表者名、住所、電話番号などそれぞれの対象に応じた大量のキーワードを持つ辞書を作成することができます。辞書情報は、Keyword / URL / Time の3つを1行のCSVにした形式(Kut形式)と呼び、メタ情報として出力を行います。

TeraMillion PDF Extractor PDFなどの文書ファイルからのテキスト展開

TeraMillion PDF Extractor は、「デ変研TFライブラリ」という高速に動作するテキスト抽出ソフトウェアを搭載し、PDFやMS-Office、OpenOffice等のドキュメントからテキスト情報を抽出するソフトウェアです。これはHTMLでリンクしたファイルがPDF等のファイルであったとき、その内容からテキストを抽出する場合に利用します。

TeraMillion Keyword Crawler 特定キーワードを含む目的URLの自動検出

TeraMillion Keyword Crawler は、「mlpg (multi-length ParaGREP)」という高速に動作するパターンマッチソフトウェアを搭載し、複数のリンク情報のあるHTMLファイルの中を調べ、必要なキーワードを含んだ部分のURLを探し、次のURLに移動するなど順にクローリングをするソフトウェアです。mlpg は、企業名20万社をすべて辞書に装着したり、企業の代表者名(社長名)を辞書に搭載したりするなど、大量であっても高速に動作することができ、ノイズの少ないURL探索をするようにしています。
mlpg は、Dehenkenの取得した日本国パターンマッチ特許(特許4152273号 2008年7月認可)を搭載しています。本ソフトウェアは、目的のキーワードを多く含むURLを判別し、結果は、Domain / URL / Time の3つを1行のCSVにした形式(Dut形式)で出力します。

TeraMillion Data Sledder URLリストなどの更新データの自動配信

TeraMillion Data Sledder は、TeraMillionを用いて取得したCSVデータ等をお客様の利用サイトに情報更新のために配送するソフトウェアをいいます。本データ配信には、sha1を用いた転送前と転送後のデータの比較をしますので、転送元と転送先のデータの保全品質の向上を行っています。

Canavar ホームページの差分監視

ジャナバル (Canavar)は、指定されたURL内のホームページのデータを取得して過去の版を管理し最新版に差があることを確認するプログラムと、差があれば指定されたメールアドレスに差の情報を知らせるプログラムと、その差を目視するために対比させて表示するプログラムの3つにより構成されています。差分の管理にはオープンソースの分散型バージョン管理システムであるGitを用いています。また、URLの管理のためにオープンソースのオブジェクト関係データベース管理システム (ORDBMS) であるMySQLを用いています。

安全な収集

TeraMillionは、1つのドメインからのクローリングについて、URL情報を提供している相手先のサーバに負荷が増えないように、時間間隔をランダムにあけて実施いたします。
また、大量のURLを対象としていても、複数のサーバに収集すべきURLを分割して調整して与えることで、ネットワーク負荷を集中させずにクローリングをすることができます。
収集相手先のドメイン内のデータによっては、たとえば、カレンダーに代表されるリンク先については、無制限にリンクを追いかけても収集が完了しない場合があります。このような場合は、リンク先の深さを設定することができるようにして、無駄な無制限の動きを回避するようにしています。
クローリングを担当するプロセスを複数にすることで、クローリングサーバは最適に動作を続けるようにしています。また、クラウド環境からのクローリングにおいても実証実験を行うことで、最適な使用方法について提案ができるようにしています。

適応業務

  • 特定のホームページの差分を自動監視することができます。
  • 大量のホームページを自動監視することができます。URLの指定も可能です。
  • 言語の情報を判別しますので、日本語のサイトだけを集めるなどのURL選定ができます。
    判定できる言語の情報はお問い合わせください。必要により判別言語を追加する提案もいたします。
  • ホームページに内容に記述されている特定のキーワードによってURLを選定いたします。
    たとえば、興味ある分野のキーワードを保持しているサイトだけを選定することができます。
  • 収集後のHPデータをCSVなどの形式に変更して、利用者様の取り扱いやすいデータに変換することができます。
お客様の利用目的をお伺いして、クローリングとその後の出力やデータ変換のご提案をいたします。
お客様の活用方法によっては、日本の法律や、諸外国の法律などを検討した上で、法の遵守上の問題などがありましたら、システムの構築の実現を受けられない場合がございます。そのときには、当社からのソフトウェア開発のご提案を辞退することがございますのでご了承ください。
年間保守サービスについて
年間保守サービスの内容につきましては「年間保守サービスについて」をご参照下さい。
製品に関するお問い合わせ
詳細をご案内させていただきますので、まずはお気軽にご相談ください。