デジタル人材の育成
平本 健二(経済産業省 CIO補佐官)
チーフクリエータ
有澤 悠紀(キヤノン株式会社 ソフトウェア基盤第一開発部ソフトウェア基盤12開発室 社員)
コクリエータ
大西 雄一朗(株式会社コンピュータシステムエンジニアリング 技術本部品質保証部品質保証第二課 社員)
近年、大量の文書データベースからの文書検索のため研究が数多く行われている。最も古典的な方法であるキーワード型検索方法は、与えられたキーワードに対して、そのキーワードを含む文書の一覧を表示する検索方法である。
ユーザーは欲しい文書集合を得るために検索式を書く必要があるが、検索式によっては検索結果の文書集合が膨大になり、不要な文書が多数含まれたり、絞り込みすぎて欲しい文書を見つけられないことがある。検索精度の良い検索式を書くためには、検索対象に対する専門的な知識や論理式を書く技術が必要となり、一般のユーザにとっては容易いことではない。結果として、ユーザが大きな文書集合から個々に内容を確認していくこととなり、非常に手間がかかる。
そこで、本プロジェクトでは複数の正解/非正解文書を基にした検索式の生成による絞り込み支援法を提案する。ユーザに検索意図に近い文書群を指定させることにより、ユーザの検索意図を統計的手法により類推する。この類推結果を基に再検索をおこなうことで、検索意図に対して妥当な検索結果をユーザに提示できる。また精度よく絞り込みをおこなうことが可能となるため、従来のキーワード型検索で検索上位にあがらなった、ユーザの求める文書を発見することが可能になる。さらに絞り込みのための適切な検索キーワードを考え出す必要がなくなるために絞り込みにかかる手間を減少させることが可能になる。
検索の精度を上げるために、類似検索から絞り込みを行うのではなく、正解文書と非正解文書をキーにして文書検索精度を上げていくアプローチは、実際の検索者の意識に近く、クラスター分析のように、正解文書まで検索対象外にしてしまう恐れも少ない。特定領域をターゲットにして検証をしてみたい。