IPA


IPAトップ





平成15年度未踏ソフトウェア創造事業  採択案件評価書


 



1.担当PM


 喜連川 優  (東京大学 生産技術研究所 教授  戦略情報融合研究センター長)



2.採択者氏名


 代表者

奥村 学  (東京工業大学 精密工学研究所 助教授)

共同開発者

藤木 稔明 (東京工業大学 大学院総合理工学研究科 修士課程)
南野 朋之 (東京工業大学 大学院総合理工学研究科 博士後期課程)



3.プロジェクト管理組織


 財団法人 京都高度技術研究所



4.委託金支払額


 6,599.998



5.テーマ名


 blogページの自動収集と監視に基づくテキストマイニング



6.関連Webサイト


 http://lr-www.pi.titech.ac.jp/



7.プロジェクト概要


 本プロジェクトは、様々な人々がウェブ上で日記や雑記録として利用しているblogを、掲示板やBBSと同様の情報源として定期的に監視し、その記録から興味深い情報を抽出するためのシステムの開発を目指している。本システムは以下に示す3つの機能を持つモジュールから構成される。
1) blogページとして監視するべきURLの特定,自動収集
  典型的なblogページの特徴パターンを利用して,WWW上をクローリングすることで得られたページ集合から,blogページのみを選択的に自動収集する.
2) blogページの定期的監視
  定期的に収集したblogページ集合を監視し,更新された部分のみを抽出する.
3) 内容に基づく分類,テキストマイニング
  2)で収集したblogページ(の更新部分)を,内容を元にグループ化し分類する.分類したblogページ集合ごとに,テキストマイニングを行い, 有用な情報を抽出,発掘する.




8.採択理由


 blogという比較的新しい素材を対象とし、開発者が蓄積してきた自然言語処理技術を用いて知識抽出に挑戦するものであり、成果を期待したい。



9.開発目標


 以下に示す3つの機能からなる、blogの自動収集と監視に基づくテキストマイニングシステムを構築する。
1) blogページとして監視するべきURLの特定,自動収集
2) blogページの定期的監視
3) 内容に基づく分類,テキストマイニング




10.進捗概要


 前期においては、1)の開発をほぼ終了し、3)の開発についても大部分終了した。後期には、残りの開発すべてが計画通りに行われ、システムの評価が行われた。



11.成果


 1)については日付情報の検出を用いたblogの識別・選択を行う手法を開発実装し、識別精度の評価を行った結果、90%以上の非常に良い精度が得られた。2)については、1)でblogと判定されたページの更新を監視し、データベースへの追加を行う機能が実装された。3)については、全文検索、キーワードに関するburst度の計算と表示手法、各月のホットキーワードの発見手法、評価表現の検出などを開発実装した。



12.プロジェクト評価

 

 blogの選択手法をほぼ確立し、マイニング手法についても種々の手法を実装できた。開発されたシステムは、一般向けのサービスとして公開されてもおかしくない完成度を持っている。blogの識別・選択手法についても評価によって非常に高い精度を持つことが実証され、評判情報を抽出するなど実用的な利用についても可能性を見出すことができた。blogという比較的新しい素材について、短期間で予想以上の成果が得られ、当初の目的を達成したと言える。また、PMの研究室でクロールしたWEBデータの提供を行うなど、PMと開発者間での実質的な協調が出来たと考えている。



13.今後の課題


 開発期間内でサービスの公開までは行えなかったが、今後データベースやプロセスの分散化を行い、システムの運用開始を予定している。また、今回の成果に関する学会発表も多数予定している。

  ページトップへ   






  Copyright(c) Information-technology Promotion Agency, Japan. All rights reserved 2004