「Cyclopeエンジン」はN-gram方式による漏れのない全文検索を行います。「Cyclopeエンジン」で採用している方式は、日本語は 2-gram(UTF-16 により他国の文字も可)、ASCIIは 4-gram という形式で行っています。例として『日本語ABcd』は「日本/本語/語AB/ABcd/Bcd/cd/d」のように区切り、これらをインデックスとします。
「Cyclopeエンジン」は、ヒットした対象文書リストの全数を漏れなく列挙します。一般に検索エンジンは、高速化のためにいわゆる「足きり」をし、結果を速く出力します。本エンジンは、一致する全数を最後まで絞り出し、ヒットした対象文書を総て取り出します。また、検索時に限界個数(例えば1000件)を設定した場合には、指定された数までで打ち切ることもできます。
1つのインデックスで管理できる文書数は約10億です(30bitでの範囲。またはOSのシステムによる制限まで可)。1つのインデックスファイルの内部は複数のデータブロックに分かれています。データブロックは、インデックス作成時に1000ファイル、あるいは、指定されたメモリ量のいずれかに達したときに書き込みが行われまれます。1つのデータブロックの最大は4GBで、複数の連結ができます。
検索時には複数のインデックスファイルを横断して(串刺しして)行うことができます。システムのデザインとしては、日ごとのデータに対して1つのインデックスを作成するという日毎インデックス型のものにすると、期間指定による横断検索が容易に実装できます。また、対象データのバックアップ時に、対象データとともに検索インデックスを含めることにより、リカバリ時に検索インデックスも回復させる仕組みにすることもできます。
アルファベットの大小文字の同一視や、全半角文字の同一視の設定が可能です。これにより、「ABC」という検索キーワードで、「ABC」「abc」のいずれでも漏らさず検索できます。 ゆらぎの設定情報は、将来のマルチリンガル対応に向けて、UTF-8の文字コードにて定義できます(EUC-JPも可)。
検索時には and、or、not、( )の条件を指定することができます。また、カスタマイズによりますが、部分的条件付検索をデザインすることができます。部分的条件付検索とは、一部の情報だけをインデックスに別フィールドとして登録し、その部分に特化した検索を実装することをいいます。部分的条件付検索は、日付、件数、場所(位置)指定です。メールの全文検索「MailCyclope」を例に挙げると、Subject / From / To等のヘッダの一部や、本文、添付情報、添付ファイル名等が部分的条件付検索によって実現しています。
※部分的条件付検索の実装は、カスタマイズ案件となります。別途、お問い合わせ下さい。
本検索エンジンの利用者が処理の状況を把握するために、ログ情報を出力させて、動作状況を追跡しやすくしています。インデックス生成時に異常データによりプログラムが予期せぬ中断をするときや、大量データに遭遇して処理がタイムアウトするというような想定外の事態発生時の対応を考え、プログラムを監視型にしています。その監視プロセスのログ情報により、エラーの発生したデータを特定し、調査を迅速に行えるようにしています(以上の説明は「MailCyclope」を対象にしています)。
複数のインデックスを同時に検索できるクラスタリング検索コマンドを用意しています。クラスタリング機能により、大量の文書によるインデックス検索時間を複数のマシンに分散させて、検索が完了するまでの時間を大幅に短縮させることができます。また、クラスタリング検索コマンドには、監視機能も用意していますので、分散環境におけるプロセスの動作状況を把握できます。
「MailCyclope」を例に、「Cyclopeエンジン」を用いたコマンド例についてご紹介します。多様なニーズやサポート側の立場に立ったコマンドをご提供しています。コマンド例を示します。
コマンド名 | 処理内容 | TF含む | MFX含む |
---|---|---|---|
mc_index | インデックス作成コマンド | 〇 | 〇 |
mc_search | 検索コマンド | 〇 | 〇 |
cmc_search | クラスタリング検索コマンド | 〇 | — |
cmc_daemon | cmc_search用の常駐デーモン | 〇 | 〇 |
merge_index | インデックスのマージコマンド | — | — |
dump_index | インデックスのダンプコマンド | — | — |
大手電機メーカ系のソフトウェア企業様や、新進気鋭のソフトウェアベンチャー企業様に採用されています。使用対象はアプリケーション組込型エンジン、電子メールフィルタリング、本文添付・ファイルの全文検索機能、通信パケット記録装置のフォレンジックシステム等です。
Microsoft Word | 97 / 98 / 2000 / 2002 (XP) / 2003 / 2007 / 2010 / 2013 / 2016 / 2019 / 2021 |
---|---|
Microsoft Excel | 97 / 2000 / 2002 (XP) / 2003 / 2007 / 2010 / 2013 / 2016 / 2019 / 2021 |
Microsoft PowerPoint | 97 / 2000 / 2002 (XP) / 2003 / 2007 / 2010 / 2013 / 2016 / 2019 / 2021 |
Microsoft Visio | 2002(XP) / 2003 / 2007 / 2010 / 2013 / 2016 / 2019 / 2021 |
Microsoft Word for Mac | 98 / 2001 / 2004 / 2008 / 2011 / 2016 / 2019 / 2021 for Mac |
Microsoft Excel for Mac | 98 / 2001 / 2004 / 2008 / 2011 / 2016 / 2019 / 2021 for Mac |
Microsoft PowerPoint for Mac | 98 / 2001 / 2004 / 2008 / 2011 / 2016 / 2019 / 2021 for Mac |
Microsoft 365 | 年 2 回動作確認 |
Microsoft XPS | 1.0 |
JustSystems 一太郎 | Ver.5-Ver13 / 2004 – 2021 |
Adobe Systems Acrobat | 4.0 / 5.0 / 6.0 / 7.0 / 8.0 / 9.0 / X / XI / DC |
1.2 / 1.3 / 1.4 / 1.5 / 1.6 / 1.7 | |
RTF | 1.0 – 1.9 |
テキスト文書 | JIS (ISO-2022-JP) / EUC-JP / Shift_JIS / UTF-8 / UTF-16 |
マークアップ言語 | HTML / XML / SGML |
ODF (Writer/Calc/Impress) | 1.1 / 1.2 |
OpenOffice | 3.0 / 3.1 / 3.2 / 3.3 |
LibreOffice | 3.4 |
1つのメール展開 | EML / Outlook の MSG 形式(EML は、E-Mail 形式のことで、RFC822 に準拠したものをいいます) |
---|---|
圧縮ファイル | zip (winzip / pkzip : 圧縮形式 / 自己解凍形式) lha (lh1 / lh5 / lh6 / lh7 : 圧縮形式 / 自己解凍形式) tar+gzip / tgz / gzip rar (圧縮形式 / 自己解凍形式) tar+bz2 / tbz2 / bzip2 7z ( 圧縮形式 / 自己解凍形式 ) ※それぞれの圧縮形式において、パスワード付きのものを除きます。 |
アーカイブ形式 | tar / gnutar |
Red Hat Linux | AS3 / ES3 / WS3 /AS4 / ES4 / WS4 / EL5 / EL6 / EL7 / EL8 |
---|
メモリ | 1GB以上 |
---|---|
HDD利用量 | 500MB以上(コマンド、環境ファイルの保存領域) (検索インデックスは、検索ファイル数に応じて別途のディスク容量が必要です) |
年間保守サービスの内容につきましては「年間保守サービスについて」をご参照下さい。
詳細をご案内させていただきますので、まずはお気軽にご相談ください。
製品の評価版をご請求頂くフォームです
評価版請求フォーム