本プロジェクトでは、ピアツーピア型の分散処理により大規模な全文検索システムの構築を可能にするソフトウェア Hyper Estraierの開発をおこなう。
Hyper Estraierは、ユーザむけにはコマンドやウェブアプリケーション、そして開発者むけにはライブラリ(API)、この双方を提供し、導入の容易性と高度なカスタマイズ性を両立させる。従来のオープンソースの検索エンジンに比べ、インデックスを構築する処理のパフォーマンスとスケイラビリティの向上をはかる。テキストの解析処理はN-gram法を基礎とすることで完全な再現率を求めつつ、N-gram法に改良を加えることで単なるN-gram法よりも効率的なインデクシングを実現している。
膨大な量の文書を対象にする場合にはインデックスが巨大になりある程度以上のスケールで性能をだすのが難しくなるが、インデックスをノードごとに分割しノード同士でピア関係を結ぶようにすることで大規模な検索システムの構築ができるようにしている。
|