Information-technology
Promotion Agency,
Japan
本文へ
IPA

トップ|電子申請|お問い合わせ|サイトマップ


独立行政法人 情報処理推進機構






IT人材の発掘・育成関連
「創造」の源となる独創力を持つ人材・技術の発掘・支援を行い、情報産業の基盤を支えるIT人材の育成を推進していきます。








IT人材の発掘・育成関連




トップに戻る









未踏ソフトウェア創造事業




事業トップ






平成15年度未踏ソフト

公募概要

FAQ(一次公募)

二次公募

FAQ(二次公募)

公募結果










IPAトップ> IT人材の発掘・育成関連> 未踏ソフトウェア創造事業> 平成15年度「未踏ソフト」公募結果> 採択概要




平成15年度未踏開発ソフトウェア創造事業  採択概要




1.担当PM


梅村 恭司



2.採択者氏名


代表者

岡野原 大輔(東京大学 理学部情報科学科 3年)

共同開発者

なし



3.プロジェクト管理組織


株式会社東大総研



4.採択金額


3,600,000円



5.テーマ名


汎用的データにおける確率的言語モデルの抽出及びその利用



6.関連Webサイト


http://member.nifty.ne.jp/DO/index.htm



7.テーマ概要


音声認識、言語意味解析などの分野で既に研究が進んでいる確率的言語モデル(Probabilistic Language Model 以下 PLMと呼ぶ)を、非自然言語情報も含んだ汎用的データにおいても高速に抽出、利用できるようにする方法を開発するのが今回提案するプロジェクトである。
現在、PLMは大量のコーパスを基にして様々な情報を抽出、及び利用することにより自然言語処理をはじめとして、音声認識、音声合成、文字認識、機械翻訳、情報検索、そして計量言語学などの広範な分野に適用され、その成果を挙げ始めている。その考えを更に推し進めて、非自然言語情報に対してもPLMを抽出し利用することを提案する。
付加情報の無いデータから、そのデータの背後に隠れたモデルを調べることは、多くの情報が氾濫している今、ますます重要になってくると考えられる。自然言語だけではなく、あらゆるデータに適応できるこれらの方法は、広い分野でデータの意味を変える可能性がある。
しかし単純に非自然言語情報に対しても自然言語情報で使用方法を適応できるわけではない、つまり非自然言語情報からPLMを抽出するためには、前もって準備されたデータで形態素解析を行うことができない。これにはWX法を用いることで解決する。
WX法は、データは可変長の「単語」というそれ以上わけられない構成要素から成っていると仮定する。そして、前提となる知識無しに、当該データの解析(確率情報を中心に)のみで単語を抽出する。このWX法を用いることでデータは単語に分解される。次に各種のPLMを抽出する方法を述べる。具体的にはN-gram Modelをはじめ、Class Model、Trigger Modelである。
Class Modelは、それぞれの単語が何らかのClassに属していると仮定し、その単語間の相関をClass間の相関に抽象化して扱うモデルである。例えば自然言語の単語間の関係を調べるときには単語間の相関よりも品詞というClass間の相関を調べるのが自然であり、実際その方が効率が良い。
Trigger Modelは長距離にわたる単語間の共起関係、依存関係を組み入れた言語モデルであり、直前の単語だけと相関があるN-gram Modelを拡張したものになっている。一度出現した単語がもう一度出現しやすいというCache Modelもこれに含まれる。
この三つのモデルを組み合わせることによりPLMは効率よく抽出することができる。元のデータに対し、直接Trigger ModelやClass Modelを適用しようとすると、データ長の4乗のオーダーの処理時間が必要であるが、組み合わせることで処理時間はデータ長の2乗のオーダーまで減らすことができ、現実的な処理時間でPLMを抽出することができる。




8.採択理由


最初の提案はモデルを利用した圧縮法の提案であった。圧縮法が最終的な目的の機能である場合には、現在には高速な圧縮があるので、計算量よりも、その結果が他のプログラムや社会に波及するには、質的な変化をもたらすかが問題になる。自然言語の冗長性を考えると、それが質的に違うものになる可能性を否定するものではないが、圧縮法の提案では、その目標値が示されていないので、これが「未踏」の趣旨にあうような波及効果があると判定できない。
しかしながら、文字の情報から単語の確率的言語モデルを高速に計算するという内部の要素技術は、申請の主張のとおり、非常に興味深い。どのような言語もモデルがどの程度の計算時間で求められるかの目算を示していれば、波及効果があると判定できる。計算時間の問題をひとまず棚上げしたプロトタイプを作成した上で、結果の効果の目算を示し、作業をかければその計算速度を劇的に短縮できるというような進め方で合意できれば、採択できる。以上のように、圧縮法として判断すると波及効果がある判断が難しい。しかし、確率的な言語モデルを高速に求めるモジュールができるとその波及効果が大きいので、内容を調整した上で採択した。


公募結果一覧へ戻る






ご利用条件


Copyright(c) Information-technology Promotion Agency, Japan. All rights reserved 2004