未踏IT人材発掘・育成事業（本体）：2010年度採択プロジェクト概要（NGUYEN TUAN DUC PJ）

1．担当プロジェクトマネージャー

平本健二（経済産業省 CIO補佐官）

2．採択者氏名

チーフクリエータ
NGUYEN TUAN DUC（東京大学大学院情報理工学系研究科創造情報学専攻学生）
コクリエータ
BOLLEGALA DANUSHKA TARUPATHI（東京大学情報理工学系研究科電子情報学専攻助教）

3．採択金額

2,880,000円

4．テーマ名

言語横断型の潜在関係検索エンジンの開発

5．関連Webサイト

なし

6．申請テーマ概要

我々が日本でいう富士山に相当するドイツの山を知りたいと思ったとき、既存の検索エンジンでは直接その要求に答えることが出来ない。そこで我々は,{(日本,富士山),(ドイツ,?)}のようなクエリに答えることのできる、高精度な(英語の)潜在関係検索エンジンを実現した。

この検索エンジンは、「Mt. Fuji is the highest mountain in Japan.」のような文から富士山と日本との関係を抽出し、それを利用してクエリに対する答えを検索する。しかし、我々がこれまでに考案、実現した潜在関係検索は単一言語にしか対応しておらず、関係を抽出する文章は全て同一の言語で書かれている必要があった。これにより検索できるエンティティが限定され、日本語の文書上ではよく出現するが、英語の文書上にはあまり出現しないエンティティ(固有名詞)に対する精度が低い問題があった。また、英語の習熟度の低いユーザ(「Mt. Fuji」を書けないユーザ)には、検索サービスを提供することができなかった。

そこで本プロジェクトでは、言語横断型の潜在関係検索という、新しい検索パラダイムを提案する。言語横断型の潜在関係検索は、例えば{(日本、富士山),(Germany, ?)}というクエリに対し、「Zugspitze」という答えを出力する。それと同時に、検索に利用した「日本で最も高い山は富士山である。」や「The highest mountain in Germany is Zugspitze.」のような文も出力する。

言語横断型の潜在関係検索エンジンには以下の利点がある。

ユーザが他言語でのエンティティの表記を知らなくても、自国語でエンティティを記述できる。例えば、「富士山」を「Mt. Fuji」の代わりに利用できる。
多言語の文章を検索に利用できるので、検索できる範囲が広がる。
検索に利用した文章が対訳になりやすいため、翻訳作業や、対訳コーパス作成作業を支援できる。

本プロジェクトでは、上記の検索パラダイムを実現し、膨大なWeb空間における言語の壁を越えた検索エンジンを目指す。

7．採択理由

提案者が指摘するように、多言語であっても文書解析せず関係性に着目するという点は、従来の検索サービスとも正面からぶつかるものではなく、面白いアプローチである。実際に、「OOにおけるXX」というのは日常的にも良く遭遇する疑問であることから、実用性もあると考えられる。