IPA


開発成果一覧へ





2004年度第2回未踏ソフトウェア創造事業  採択案件評価書


 



1.担当PM

 

 原田 康徳  (NTT コミュニケーション科学基礎研究所 主任研究員)



2.採択者氏名


 代表者

 小林 卓夫 (東京農工大学大学院 工学教育部電子情報工学専攻 博士後期課程)

共同開発者

 なし



3.プロジェクト管理組織


 株式会社ネクストコア



4.委託金支払額

 

 2,000,000円



5.テーマ名

 

 汎化冪空間類似度法によるデータパーセプション技術の開発



6.関連Webサイト

 

  http://www.geocities.jp/onex_lab/



7.テーマ概要


 開発代表者が従来から研究してきた,データ探索・分析・認知・理解のための各種アルゴリズムをプログラムにより実装した.具体的には,最近傍探索プログラム,パターン学習・認識プログラム,カテゴリーの相関を分析するプログラム,点の均等配置プログラム,コンテンツの自動抽出システムである.それぞれのプログラムは一定の性能が出ることを確認した.




8.採択理由

 

 開発するテーマが実現されたときの効果は大きいと考える.提案する内容のうち,比較的小規模で短時間でできる範囲に限定して頂いて,確実な一歩をすすめていただきたい.



9.開発目標


 従来のデータ分析手法の多くは,データ件数,カテゴリー数に対してスケーラブルでないものが多い.そのため,大量の情報を前にして,現在のITは時間計算量がネックとなってインテリジェンスの欠如を起こしている.
 そこで,開発代表者が過去に開発した冪空間類似度法を拡張した「汎化冪空間類似度法」を用いて,大量のデータ件数,カテゴリー数に対してもリアルタイムに処理できるソフトウェア基盤技術を実装する.それにより,従来は扱うことの出来なかった領域で有効な作用が得られ,データパーセプション・データインテリジェンスと言うべき,新しいフレームを創出することを狙いとする.



10.進捗概要


 本プロジェクトでは,汎化冪空間類似度法を用いたさまざまな技術のプログラムによる実装を目標とした.未踏開発事業のリソースの枠組みの中で,基礎的で汎用性のある基盤プログラムの開発に範囲を絞った.具体的には,最近傍探索プログラム,パターン学習・認識プログラム,カテゴリーの相関分析プログラム,コンテンツの自動抽出システムの開発である.
 これらの開発作業は,一通りの初期の目標を達成できた.また,プログラムの性能を高めるためには元となるアルゴリズム自体の改良も不可欠であるが,そのための作業も行い,進歩が見られた.プロジェクトの期間中に得られた新しい知見のすべてがプログラムに反映されているわけではない.これらについては今後も継続的にプログラムの改良を行っていく予定である.



11.成果


1 最近傍探索プログラム

 近似最近傍探索のための前処理を行うプログラムと,探索を行うプログラム.
 Cのライブラリ関数の形式で提供される.また,サンプル用のドライバ関数を作成した.
 性能評価を行ったところ,同一の検索精度で速度比較を行い,ある条件では線形検索の8倍程度の高速化が達成できた.また,別の条件では10〜20倍程度の高速化が達成できた.本プログラムは,検索精度と検索時間を動的に選択できるという特長がある.速度と精度の関係を計測したグラフを下に示す.
 

 


2 パターン学習・認識プログラム

 高速な学習・認識プログラムを作成した.本プログラムは,学習サンプル数,カテゴリー数に対してスケーラブルである.本プログラムでは仕様上,学習サンプル数,カテゴリー数は231-1までと,事実上無制限である.
 Cのライブラリ関数の形式で提供される.また,サンプル用のドライバ関数を作成した.
 公開されているオフライン手書き数字データベースMNISTを使った実験では,認識率95.94%であった.認識速度は,k-NN法の700倍以上高速だった.
 また,ソースコードは,文字認識に特化したものではなく,パターン認識全般に適用できるように設計されている.

 

3 カテゴリーの相関を分析するプログラム

 カテゴリー間の距離の定義のしかたはいろいろ考えられるが,いずれにしても,それぞれのカテゴリーについて近いカテゴリーを検索するとき,全カテゴリーについて処理を行う場合,カテゴリー数に対して2乗の時間がかかるし,サンプル数に対しても2乗の時間がかかると予想される.本プログラムでは独自のアルゴリズムを使用して,これを高速に行うことができる.


 例えば,活字OCR用データベースを使って,日本語全ての文字種について形の似ている文字の上位100個を求める処理を行ったところ,文字種(カテゴリー数)=6891,サンプル数=440621に対して,20分程度で処理を行えた.
 分析結果のサンプルを下に示す.
 この手法は,データマイニング,ウェブマイニングなどに応用が可能であると考える.
 

 

4 点の均等配置プログラム

 点を決められた領域内に均等に配置する点の均等配置問題は,一般に多くの計算時間を必要とする.3次元球面の点の均等配置の例を下の図に示す.
 本プロジェクトにおいて,独自のアルゴリズムを用い,高次元球面の点の均等配置プログラムを作成した.10次元,1024点の条件で実行し,高速に行えることが確認できた.
 本プログラムの応用により,科学技術分野の計算処理が高速に行え,科学的な新しい知見の獲得のためのツールとなることが期待される.


 

5 コンテンツの自動抽出システム

 

 

 

 たくさんの画像の中から,ある目的に沿って,特定の画像を抽出するシステムのプロトタイプとして,本技術を応用した,コンテンツの自動抽出システムを作成した.
 システムの概要を以下に説明する.
 適当な画像生成式とランダムなパラメータにより,ランダムな画像をプログラムにより多数生成する.文字認識プログラムを使って,こうしてできたランダムな画像の中から,文字に似ている画像だけを抽出する.それらのうち,人間が画像を確認して,意味を感じるもののみ,アーカイブに保存する.この一連の作業により,意味のある画像とそれを生成するプログラムを多数獲得することができる.こうして得られた画像・プログラムは,全く新しい方法で作成されたコンテンツである.従って,新しい利用方法が生み出される可能性がある.
 このプロトタイプシステムを作成し,テスト作業を行ったところ,有効なコンテンツを得られることが確認できた.
 図は,必要な画像をアーカイブに保存するための,人間の補助となるアプリケーションプログラムの画面である.

 



12.プロジェクト評価


 開発者のアルゴリズムは理屈では納得でき,それを具体的なプログラムの形にして,様々な対象で実験を行ったという点は高く評価できる.今回の開発期間でビジネスにうまくつなげられるライブラリを作ることができたと言える.プログラムの開発能力もきわめて高く,将来が期待できる.

 



13.今後の課題


 ・開発した基盤プログラムをもとに商談活動を行い,ニーズを掘り起こしていく必要がある.特定の分野への応用のためには,固有の作りこみ部分が必要になると予想される.
 ・本開発作業では,現実データを使用した特定の分野での有効性の確認・実証実験等という点では不十分である.この作業は,実現できれば普及・宣伝活動の点で非常に効果的であるが,これを行うには,多大な工数とリソースを必要とすることが予想される.
 ・開発した機能については仕様の要件的には目標水準を満たしていると考えているが,速度評価作業の一部は不十分であり,高速化の余地がある.今後ソースコードを改良して,高速化する必要がある.
 ・点均等配置プログラム,カテゴリーの相関を分析するプログラムは,十分に汎用化されたプログラムにはなっていない.この点は取り残し部分である.
 ・いくつかの最近の研究成果をプログラムに反映させ性能の向上を図る作業を今後,継続的に行っていく予定である.


  ページトップへ   





  Copyright(c) Information-technology Promotion Agency, Japan. All rights reserved 2004