IPA


開発成果一覧へ





2004年度第2回未踏ソフトウェア創造事業  採択案件評価書


 



1.担当PM

 

 梅村 恭司 (豊橋技術科学大学 情報工学系 教授)



2.採択者氏名


 代表者

 岡野原 大輔 (東京大学大学院 情報理工学系 コンピュータ科学専攻 修士1年)

共同開発者

 なし



3.プロジェクト管理組織


 株式会社東大総研



4.委託金支払額


 7,060,483円 



5.テーマ名

 

 文脈を考慮した文書分類



6.関連Webサイト


  http://homepage3.nifty.com/DO/index.htm



7.テーマ概要


 文書(あるいは,文字列情報)の分類において,文脈を十分に利用するために長い文字列の統計情報を利用するという問題にチャレンジし,それを実現するためのライブラリを作成するプロジェクトである。




8.採択理由

 

 文書分類は基本技術であり,波及効果があると考えます。文脈を効率よく扱う提案には,既存の方法を越える独自の技術があると判定します。




9.開発目標


 開発は,Suffix Treesと呼ばれている文字列の頻度計数のライブラリを,圧縮手法を用いて既存の方法より大きなデータを扱えるライブラリを作り,それを利用してテキスト分類という問題の有効性を示すことを目標とした。




10.進捗概要


 当初の目的の前半部分で,高速なものができただけではなく,実用的で優れた実現方法よりも一桁以上メモリの使用効率が良いアルゴリズムが発案されたために,前半部分の目標であるライブラリの完成度を特に高めるようにお願いした。テキスト分類という応用は,それ自身の性能を向上させるというよりは,ライブラリの実用的な応用と性能評価として作業した。



11.成果


 Suffix Treesライブラリの効率の良い実装は,寺尾氏が初年度に開発した大規模文書頻度計数ライブラリの成果と同様の機能を含み,それ以外の機能も実現するものである。つまり,機能が多い。さらに,寺尾氏が開発したプログラムは8台程度のコンピュータクラスタを利用した方法であるが,岡野原氏は,同じ処理を単一のプロセッサで行える。



12.プロジェクト評価


 利用した技術の多くは,アルゴリズム分野の論文で公開されたものを利用しているとはいえ,論文だけで証明されていても,実際には実装されていないアルゴリズムを,効率よく実装するときの困難さは,多くの人が認めるところである。それを実装したのは高く評価できる。実際に処理できる対象のデータが一桁以上増え,かつ,処理速度も速く,アルゴリズムの詳細をしらない利用者によるデバッグも進んでおり,ライブラリはすぐにでも公開するレベルに達している。
 ライブラリで提供した機能は,Suffix Treesのライブラリとして知られているもので利用者が多い。その実現において,単純な実現方法と比較して2桁のメモリ効率の向上,Suffix Arraysという理論上は計算のオーダが多少遅いがコンパクトで利用できるものと比較しても1桁のメモリ使用効率の向上を実現し,かつ,実際的な速度で動作するというものは,システムの詳細の情報のないユーザには驚かれると思われる。このライブラリは利用者が自然に増え,波及効果が大きいものと判断できる。
 



13.今後の課題


 知的所有権と技術のプライオリティを確保したまま,世界に認知されるための戦略が必要である。実際に,どの部分から論文にし,どのように公開するか十分注意する必要がある。



  ページトップへ   





  Copyright(c) Information-technology Promotion Agency, Japan. All rights reserved 2004