Information-technology
Promotion Agency,
Japan
本文へ
IPA

トップ|電子申請|お問い合わせ|サイトマップ


独立行政法人 情報処理推進機構






IT人材の発掘・育成関連
「創造」の源となる独創力を持つ人材・技術の発掘・支援を行い、情報産業の基盤を支えるIT人材の育成を推進していきます。








IT人材の発掘・育成関連




トップに戻る









未踏ソフトウェア創造事業




事業トップ






平成15年度未踏ソフト

公募概要

FAQ(一次公募)

二次公募

FAQ(二次公募)

公募結果










IPAトップ> IT人材の発掘・育成関連> 未踏ソフトウェア創造事業> 平成15年度「未踏ソフト」公募結果> 採択概要




平成15年度未踏開発ソフトウェア創造事業  採択概要




1.担当PM


喜連川 優



2.採択者氏名


代表者

奥村 学(東京工業大学 精密工学研究所 助教授)

共同開発者

藤木 稔明(東京工業大学 大学院総合理工学研究科 修士課程)
南野 朋之(東京工業大学 大学院総合理工学研究科 博士後期課程)



3.プロジェクト管理組織


財団法人 京都高度技術研究所



4.採択金額


6,600,000円



5.テーマ名


blogページの自動収集と監視に基づくテキストマイニング



5.テーマ名


http://lr-www.pi.titech.ac.jp/



7.テーマ概要


近年注目され始めている情報源としてblog(Web log)がある。blogの定義は現在必ずしも定まっているとは言えないが、Web上の「日記サイト」あるいは「個人ニュースサイト」と言うことができ、書き手が関心を持ったニュースやできごとについて(何らかのコメントを)書いた記事を、元情報へのリンクとともに時系列に沿って掲載しているサイトを指すことが多い。 通常のwebページとは異なり、速報性、リアルタイム性のある新鮮な情報が発信されることから、掲示板同様有用な情報源と考えられるようになってきている。 掲示板は、その数もあまり多くなく、そのため、定期的な監視を網羅的に行うこともそれほど困難とは考えにくい。一方、blogは掲示板と異なり、サービスとして運用されている(したがって、多数の書き手が書いた記事をまとめて収集できる)ものは(特に日本では)それほど多くなく、多くは通常のwebページと変わらず個人が各自書いているものが多数を占めている。そのため、定期的な監視を網羅的に行うことはそれほど容易ではない。 そこで本プロジェクトでは、blogを掲示板と同様の情報源として、定期的に監視し、そこから情報を抽出、発掘するためのシステムを開発する。システムは以下の3つのモジュールから構成される。
1) blogページとして監視するべきURLの特定、自動収集
blogページの属性と考えられる情報を利用して、WWW上をクローリングすることで得られたページ集合から、blogページのみを選択的に自動収集する。
2) blogページの定期的監視
収集したblogページ集合を定期的に監視し、更新された部分のみを選択的に抽出する。
3) 内容に基づく分類、テキストマイニング
掲示板の場合、「板」あるいはthreadごとに内容を表すキーワードが付与され、内容の概覧に役立っている。2)で収集したblogページ(の更新部分)を、内容を元にグループ化し分類する。そして、分類したblogページ集合ごとに、テキストマイニングを行い、 有用な情報を抽出、発掘する。




8.採択理由


blogという比較的新しい素材を対象とし、開発者が蓄積してきた自然言語処理技術を用いて知識抽出に挑戦するものであり、成果を期待したい。

公募結果一覧へ戻る






ご利用条件


Copyright(c) Information-technology Promotion Agency, Japan. All rights reserved 2004