平成13年度未踏ソフトウェア創造事業


採択案件評価書

1.担当PM  10.松島 克守
2.採択者氏名  梅村 恭司  (豊橋技術科学大学 助教授)
 山本 英子  (豊橋技術科学大学大学院 博士課程)
 武田 善行  (豊橋技術科学大学大学院 修士課程)
 鈴木 健二  (豊橋技術科学大学大学院 修士課程)
 舟宝 貴志  (豊橋技術科学大学大学院 修士課程)
 真田 亜希子(豊橋技術科学大学大学院 修士課程)
3.プロジェクト実施管理組織  ネイチャー・ランド・ジャパン 株式会社 
4.委託金支払額  22,800,000円
5.テーマ名  <未踏テキスト用シソーラスの自動構築システムの開発>
6.関連Webサイトへのリンク  
7.テーマ概要

 新聞記事やWWWのテキスト情報には新しい概念を示す単語が含まれるが、新しい単語について辞書が整備されていると考えられない。辞書に記載されていないような単語について述べているテキストは、人間による整備がなされていないテキストという意味で未踏テキストともいってもよい。このようなテキストを理解するときに、新しい単語に関連する単語のリストがあれば、理解の助けになる。ここで、そのようなリストを作るシステムを開発するのが、本プロジェクトの目標である。このリストは、未踏テキストのためのシソーラスと呼ぶこともできる。シソーラスには、テキストの理解の補助情報や、テキストに対する情報検索という応用があるが、このシステムは未踏テキストの処理に使えるシソーラスを実現するものとも表現できる。

 このシステムを構築するときの技術課題は二つある。そのひとつは、新しい単語を特定することである。既存の形態素解析技術では、新しい単語をうまく切り出すことに失敗しがちである。もうひとつの技術課題は、単語が似ているということを、辞書を使わないで判定する方法である。第一の問題点に関しては、ひとつの文書に集中して出現する文字列を取り出すことで、文書の主題にかかわる単語を取り出す処理をする。第二のものについては、「関連ある単語は、似たような使われ方をする」ということに着目してシステムを構築する。まず、未知の単語Xを含むテキストから、それを質問文として情報検索を行い、Xに関連する文書の集合を求める。その後、その文書集合について前後の単語の接続関係が似ている単語Yを特定する。具体的には、ある新しい単語Xとある既知の単語Yについて、その単語の前に接続する文字列Aと、その単語のあとに接続する文字列Bを調査し、それが似ているかどうかを判定する。この処理を繰り返して、リストを得る。

 第一の技術課題の解決には、昨年の未踏ソフトウェア開発プロジェクトの成果がそのまま利用できる。第二の技術課題の前半の情報検索システムについては、情報検索コンテストに参加ししたアルゴリズムが利用できる。第二の技術課題の後半は処理自身は単純であるが、実際にはアルゴリズムの工夫が必用である。

 このプロジェクトの成果は、テキストを入力すると、システムがそれに関するシソーラスを抽出するプログラムと、そのアルゴリズムを論文形式にまとめたものと、アルゴリズムの性能評価を分析した結果である。

8.採択理由

未踏にふさわしい技術的な新規性に加え、日本語言語処理の基礎的技術分野であり、その汎用性は高く、将来のビジネス可能性は大きいと判断した。また、すでに前回の「未踏ソフト」においてすでに基礎的な技術開発ができており、実現可能性も高い。

9.開発目標

(1)入力テキストからシソーラスを抽出するプログラム
(2)そのアルゴリズムに関する論文
(3)アルゴリズムの性能に関する評価分析レポート
 
10.成果

上記開発目標をすべて達成し、必要な成果物受領の報告を受けている。
   
11.プロジェクト評価

 本プロジェクトは、未知のテキストの集合体の中から、キーワードを抽出、それをシソーラスとして整備する技術の開発である。

 通常テキスト中のキーワードを抽出する場合、事前に用意された辞書を参照し、キーワードを特定する方法が一般的で、既に実用に供しているものも多い。しかし、この方法の場合、当然のことではあるが既知のキーワード抽出は可能であっても、未知のキーワードに対しては適用できない。加えて数十万語は必要であろう辞書の整備に膨大な労力が必要となる。また、多言語に対応することは、辞書整備の観点からも実現困難な状況にあった。このような課題を解決する方法として、本技術と同様に辞書を使用せず、文字列の出現パターンを統計的に解析し、意味のある単位としてのキーワードを抽出しようとの取り組みは以前より行われてはいたが、そのほとんどは実用レベルのスピードを得られない状況にあった。このような中で本技術は、この統計的アプローチを採用しつつも従前の数百倍のスピードを達成するとともに、意味的なまとまりに対する一定の精度を保証するアルゴリズムを開発、それを実装できた意義は、その実用の道を開く意味でも大変に大きなものがある。

 日々に拡大と変化を遂げるネットワーク上のサイバースペースにおいて、言語を問わず膨大なテキスト情報が日々生成され、新しい言葉も生み出されている。これらを特定の人間、または組織により、キーワードを抽出し、辞書を整備することは、不可能である。しかし、そこには多くの人間の"知"が集積されていることも事実であり、これを整理、構造化することの意義はきわめて大きい。

 本技術は、いまだ誰も成しえなかった、このような膨大な、しかも言語を越えたテキスト情報の中から、"知"のエッセンスであるキーワードを自動的かつ高速に抽出するとともに、"知"の構造化の基礎となるシソーラスを生成することを可能とする画期的な技術である。この技術がもたらす知の革新への可能性を高く評価したい。
   
12.今後の課題

 エンジンとして、性能は十分に実用レベルにある。しかし、現時点では、アプリケーションとしての体を成していない。実際のビジネスあるいは実用環境において使用するためのアプリケーション・システムを構築し、これを実際の運用環境で運用し実証することが必要であろう。