平成12年度未踏ソフトウェア創造事業


採択案件評価書

1.担当PM  10.松島 克守
2.採択者氏名  梅村 恭司 (豊橋技術科学大学情報工学系・助教授)
3.プロジェクト実施管理組織  ネイチャー・ランド・ジャパン株式会社
4.委託金支払額  12,000,000円
5.テーマ名  「未踏テキスト情報中のキーワードの自動抽出システム」
6.関連Webサイトへ
のリンク
7.テーマ概要

 最新の技術情報の速報やニューズ(未踏テキスト)の整理や検索のため、キーワードを人の手で付与することが行われているが、この作業を自動化できればキーワードが付されていない文書の操作は容易となる。ここで、キーワードの対象となる語を辞書に登録し、それが含まれているかどうかの判断をする処理は可能であるが、最新の文書に含まれるキーワードを辞書に登録し続けるのはコストが高い。本提案は、辞書を用いないという条件のもとで、文章からキーワードを自動抽出するという問題を設定し、手法として、文字列の頻度に加えて、出現集中を示す統計量を使うことを特徴とするもの。
8.採択理由

下記の理由により当事業で採択される水準にあるプロジェクトと評価します。

1.現状と市場ニーズの乖離の中で開発目標が明確に同定されている。

2.基礎技術の蓄積があり実用化プロジェクトを起こすべき段階にある。

3.提案の新規性、独創性が提案者の本プロジェクトに関連する学術論文で公的に評価されている。(学術論文とは学会に発表され公開議論を経てさらに学会の選定した専門家の査読・校閲を経て新規性・独創性・有効性を確認されたものを言う)

4.上記により当開発物が本人の知的資産になりうることを確認できる。

5.開発予算が堅実に評価されて額が妥当である。

6.開発に必要な知的な開発組織・人材が準備されている。

7.開発の成功にかける気迫が感じられる。
9.開発評価

 自然言語処理の基本技術として、形態素解析は、かつてより数多くの取り組みがなされてきた。また、実用化されている製品も少なくない。しかし、その多くが膨大なシステム辞書(数十万語)を必要とし、その構築に多大な時間とコストを必要とする。当システムは、この辞書を必要とせず、統計的な手法をもって形態素解析を実現しようとする試みである。

同様の取り組みは、既に他でもなされているが、どれも精度、パフォーマンスにおいて、実用レベルに至っていない。今回開発されたシステムは、今までにないアルゴリズムと実装技術を用いて、これを高速化し、精度とともに、実用に供するレベルとすることがテーマとなった。その結果、改善の余地はのこるものの、十分に実用レベルに達するものが実現された。

上述の通り、形態素解析は、自然言語処理の基本技術であり、汎用性はきわめて高い。また、膨大な辞書を必要としないことから、コスト的にも安くできることは、産業界に資するところが大きい。また、辞書を必要としないことは、言語を問わないことにもなり、多言語を含む言語解析にも大きな可能性を持っている。

 なお、既に製品化の受け皿会社が決まっており、ビジネス化の可能性はきわめて高い。また、特許取得も予定している。



(総括)

・限られた期間でのプロジェクトであり、その成果をこの時点で判断するのは、時期尚早と言わざるを得ないが、上記採用趣旨にかなう成果は達成しているものと判断している。

・基本的技術、開発者の意欲はあるが、事業化には更なる開発が必要。