未踏IT人材発掘・育成事業（本体）：2008年度下期採択プロジェクト概要（渡部PJ）

1．担当プロジェクトマネージャー

竹田正幸（九州大学大学院システム情報科学研究院教授）

2．採択者氏名

チーフクリエータ
渡部浩昭（インペリアルカレッジロンドン計算機学科研究員）
コクリエータ
なし

3．未踏プロジェクト管理組織

株式会社ゼータ

4．採択金額

5,700,000円

5．テーマ名

機械学習システムを用いたWeb空間からの知識発見

6．関連Webサイト

なし

7．申請テーマ概要

「予測」は,科学,経済学,社会学など幅広い適用分野を持つ基盤技術である．
精度の高い予測を行うためには「エラーの少ないデータ収集」「専門家によるデータ解析」「予測結果の妥当性の確認」が必要になり,その結果多大なコストが通常発生することから, 「気象予測」「株価予測」などの分野で限定的に利用されている現状がある．

このような「テーラーメード」の予測とは別に,予測精度は多少落ちてでも,大量に存在するWeb空間上のテキストデータから(半)自動的にモデルを構築し積極的に予測技術をサービスとして利用していきたいという要望が存在する．
本提案は,このような要望に応えるために「自然言語処理技術と機械学習アルゴリズムを用いたWeb空間からの知識発見ソフトウェア」の開発を行い,汎用予測システム実現に向けたプロトタイプシステムの構築を提案する．

本開発の技術的な独自性は,

自然言語処理技術を用いた「定性的な知識」の抽出,
頻度情報を用いた「定量的な知識」の抽出,
確率的帰納論理プログラミングを用いた記号的統計学習

の3点にある．

確率的帰納論理プログラミング（Probabilistic Inductive Logic Programming: PILP）は,確率論理(Probabilistic Logic)を記述言語として不確実性を含む知識の帰納的学習を実現する．PILPはサポートベクターマシンと組み合わせて予測精度を向上させたり,生物学分野において「ロボット科学者」の頭脳部分として用いるなど,理論・応用の両面で発展を続けているが,近年「関係」を「三つ組み」として表記するセマンティックWebとの親和性の高さから,Web空間からの知識発見問題への適用も期待されている．なお,帰納論理プログラムを用いて予測を行う場合,背景知識の「質」と「量」が予測精度に多大な影響を与える．背景知識の構築はドメインエキスパートの協力のもとで慎重に行なわれるが,時間とコストの観点からボトルネックとなってきた．

上記のような背景の下で,今回の開発ではWeb上のテキスト情報から自然言語解析技術を用いて知識を自動抽出することにより,背景知識の構築に関わるボトルネックを解消する．構築した知識の「質」を向上させるためにドメインエキスパートのアドバイスを仰ぐ際には,自動構築した背景知識を「たたき台」として用いることによりコスト削減に貢献できる可能性が高い．

なお,ユーザーはキーワードを用いて「予測」を行う問題領域を変更できるため,基盤技術に必要な柔軟性も同時に備えたプロトタイプシステムの開発を目指す．

8．採択理由

帰納論理プログラミング(ILP)に基づく機械学習システムを用いてWebからの知識発見に役立てようとする提案である。理論計算機科学分野の成果であるILP技術を現実の問題に適用しようとする際のボトルネックに正面から取り組もうとするもので、高い未踏性を有する。開発計画も具体的かつ明瞭であることから、この開発計画は着実に進行するものと判断し、採択とした。