IPA


IPAトップ





平成15年度未踏ソフトウェア創造事業  採択案件評価書


 



1.担当PM


 梅村 恭司  (豊橋技術科学大学 情報工学系 助教授)



2.採択者氏名


 代表者

寺尾 健一郎(豊橋技術科学大学 大学院 情報工学専攻・学生(2003年度にて修了))

共同開発者

なし



3.プロジェクト管理組織


 株式会社東大総研



4.委託金支払額


 5,999,675円



5.テーマ名


 一般化文書頻度の計数ライブラリおよびシステムの開発



6.関連Webサイト


 なし



7.プロジェクト概要


情報検索における重みや言語の分析には頻度(出現回数)の計算が重要な意味を持つ。通常の計数方法では、あらかじめ計測する対象の文字列(通常は単語)を決めておき、データの先頭から、その文字列の出現回数を数えるのであるが、すべての文字列を対象とできれば、一般的な分析ができる。この目的のために、開発されたアルゴリズムがあるが、分析対象と計算途中の情報をメモリにいれて、ランダムにアクセスするため、外部記憶(ファイル)で計算することが難しく、実際には利用できるメモリの10%程度の大きさの対象が分析できる限界であるという問題があった。また、複雑に情報を交換するため、複数のマシンに分割して計算することもできない。そこで、アルゴリズムを改良し、ランダムアクセスを行う部分を外部記憶で行うようにし、メモリと同等の大きさの対象を分析できるようにし、さらに、複数のマシンで共同して計算することで、計算機の台数を増やすことで分析対象の大きさを増やすことができるようなシステムを開発する。



8.採択理由


自然言語処理や情報検索の処理の基本的な土台である頻度計測は基礎技術であり、多くのプログラムの作り方に影響をあたえる提案である。100Gバイトという量のコーパスを相手に処理をするというライブラリは、現在存在しない機能を実現していると判定でき、未踏プロジェクトとしての条件を備えている。
作成済みの特色あるライブラリが存在するので、それは特色あるシーズと判定できる。また、申請者は他に癌の画像診断の作成経験もあり、プログラミング能力は高いと判定できる。
実現しようとしている内容は具体的であり、置かれている環境から、システムの開発に集中できる体制であると判断できる。また実際的には価値があるが学術的には評価されにくい内容であるため、採択されなければ実現しないものであると判定できる。




9.開発目標


一般化文書頻度の計数ライブラリにおいて、主記憶のサイズよりも大きなコーパスを対象に分析できるようになり、かつ、計算機の台数を追加することにより、分析できる文書の範囲を増やす。



10.進捗概要


第一段階の主記憶と同等なものを対象として分析するシステムは所定の大きさの対象を処理でき、かつ、当初想定した速度の低下を解消し、2次記憶を主に使う処理でありながら、1次記憶で処理を行うシステムと同程度の性能を達成した。第二段階の分散計算システムは動作し、ライブラリとして使用できる状態になっている。



11.成果


メモリと同等な大きさのデータを分析できるようになったことで、実質的に計算できるコーパスのサイズが10倍になった。性能的に、1次記憶のシステムと同じ速度で統計値を求めることができたのは想像以上の成果である。また、表の形式となっている情報を分散環境で取得するモジュールの動作が確認できた。



12.プロジェクト評価


性能的に、1次記憶のシステムと同じ速度で統計値を求めることができたのは想像以上の成果である。



13.今後の課題


現在、前処理までの性能は問題がないが、前処理が終わったあとに表にアクセスするモジュールが、実際に応用するにはネックになりうることが判明した。このモジュールの改良は、すでに対策方法が存在するものであるが、発明を実施するときに注意が必要である。

  ページトップへ   






  Copyright(c) Information-technology Promotion Agency, Japan. All rights reserved 2004