IPA






2004年度第2回未踏ソフトウェア創造事業  採択概要


 



1.担当PM

 

 梅村 恭司



2.採択者氏名


 代表者

 岡野原 大輔 (東京大学 理学部情報科学科)

共同開発者

 なし



3.プロジェクト管理組織


 株式会社東大総研



4.採択金額


 7,584,000円 



5.テーマ名

 

 文脈を考慮した文書分類



6.関連Webサイト


  http://homepage3.nifty.com/DO/index.htm



7.テーマ概要(採択者)

 現在、Web情報、ゲノム情報を初めとして、膨大な量の情報が秩序無い状態で存在しており、何らかの形で整理する必要がある。そうした中、文書分類は情報を整理する技術の中でも最重要技術の一つである。ここでの文書は、自然言語に限らず文字列化可能な全情報とする。分類対象となる文書の数は人の手には負えないサイズとなりつつあり、何らかの形で自動分類を行う必要がある。現在、文書分類は、文書の特徴を、それに含まれる各単語やキーワードの出現状況をベクトルの要素として表し、このベクトルを基にして文書が似ているかどうかを判定する、いわゆる"bag of words" (BOW)を用いて分類を行うのが一般的である。しかし、BOWを用いると正確に単語を分解する必要がある上に、未知語の取り扱いや、単語に分けられない情報をどのように扱うか、単語の並び方情報の欠如などの問題が生じる。今回提案する手法では文脈を考慮した分類を行う。この文脈を考慮するとは、情報の並び方を考慮する点、情報を必ずしも単語に分解せず全部分列を考慮する点を意味する。この実現のための技術としてSuffix Arrays(以下 SA)、Suffix Trees(以下ST)を用いる。これらを用いることで全文書集合の全部分列を効率よく列挙し、分類、クラスタリングを行うことが可能である。また、SAやST、文書集合情報をそのまま扱うのは領域量の面から実用的ではないが、これらは近年提案されてきているCompressed SAやCompressed ST、また文書集合に対する効率的な演算を利用することで解決可能である。これらを利用し実用的なクラスタリング、分類を行う手法を開発する。



8.採択理由(担当PM)

 

 文書分類は基本技術であり,波及効果があると考えます。文脈を効率よく扱う提案には,既存の方法を越える独自の技術があると判定します。





  ページトップへ   






  Copyright(c) Information-technology Promotion Agency, Japan. All rights reserved 2004