デジタル人材の育成

未踏IT人材発掘・育成事業:2013年度採択プロジェクト概要(小松PJ)

1.担当プロジェクトマネージャー

首藤 一幸(東京工業大学 大学院情報理工学研究科 数理・計算科学専攻 准教授)

2.採択者氏名

  • チーフクリエータ
    小松 弘佳(フリーランス)

3.採択金額

  • 1,728,000円

4.テーマ名

  • 実用的な質問応答システムの開発

5.関連Webサイト

  • なし

6.申請テーマ概要

質問応答システムとは、ユーザから特定の種類の情報に対する質問を自然言語で受けつけ、その回答を返すソフトウェアである。質問の回答は文章か、質問に対する直接回答である単語がほとんどであり、その回答を得るために、検索エンジンやオンライン百科辞典、あるいはさまざまなデータベースを基にした検索を行う。近年、AppleのSiriやGoogleのKnowledge Graphといった、単純な検索結果に基づく回答以上のインテリジェントな回答を返す質問応答システムが登場している。しかしこれらであっても、回答を得るための主な処理は、質問文と用意された回答との正規表現等を用いたパターンマッチングであり、それで回答が単純にマッチしないような場合では回答ができず、汎用性が十分に高いとは言えない。
それに対し、自然言語処理の研究で培われてきた統計的な技法(機械学習)を用いた質問応答では、Web上の大量のデータを処理することで、Webの文章の単語を回答候補として利用するため、回答のバリエーション、汎用性が高くなる。ただし、機械学習だけでは質問文の論理的な構造を解析できないため、回答が単語にはならない質問への回答が難しい。例えば、「マイケル・ジャクソンは何と呼ばれていた?」という質問に対して「キング・オブ・ポップ」という回答は可能だが、「マイケル・ジャクソンはキング・オブ・ポップと呼ばれていたか?」という質問にYes/Noの回答をすることが難しい。
そこで本プロジェクトでは、以下の様な特徴を持った質問応答システムを開発することで、汎用的でかつ実用的な質問応答を実現する。

  • 質問文とデータベースとの結びつけ(アラインメント)を、以下のような方法で実現する。1つはWikipediaのような大規模データに対して機械学習を用いた解析をすることで、質問文を入れると関連するデータベースを取得できるようにする分類器を構築する。もしくは、同じように機械学習を用いることで、特定のフレーズとデータベースとを結びつけるデータを作成する。
  • 上記のアラインメントを用いて質問文を論理表現に変換することで、その論理構造を抽出する。それにより質問は、データベースのクエリのようにANDやORなどを使った表現ができるようになるため、Yes/Noのような回答を求める質問の場合でも、単語の回答の場合と同じように、データベースに単純にクエリを投げるだけで回答を得ることができるようになる。

7.採択理由

質問応答システム、つまり例えば、King of Popは?と問われたらマイケルジャクソンと応えるシステムを作るという提案である。
既存手法の拡張やシステム構造の一般化、質問と回答の様々な形(例:1単語を回答)への統一的アプローチ検討を目指す。また、誰でも試せるようなオープンソースソフトウェアとしての配布を目指す。

何か一点でも、これまでの限界を打破して欲しい。