IPA






2006年度下期未踏ソフトウェア創造事業(未踏ユース)  採択概要


 



1.担当PM


  安村 通晃



2.採択者氏名


代表者

上村 卓史(北海道大学大学院情報科学研究科

共同開発者

 なし


3.プロジェクト管理組織


 有限会社シーカネット



4.採択金額


  3,000,000



5.テーマ名


 テキストマイニング技術を融合したウェブブラウザの開発



6.テーマ概要 (応募時資料を一部分改訂)

 ウェブブラウザの世界では激しい開発競争が行われているが、現在その多くは 多機能化に焦点が当てられている。そのためウェブ上で情報収集をするとなる と、検索エンジンを駆使して候補を絞り込み、あとは実際にページを見て内容を 確認する必要がある。大量のページを扱うための機能は向上し続けているが、目 を通すのは結局ユーザであり、ウェブブラウザは忠実に表示する存在であった。
  そこで本プロジェクトではテキストマイニングの技術を用い、ページからキー ワード等の有用な情報を抽出し、ユーザの閲覧を補助する機能を搭載すること で、ブラウジングの効率を改善することを目的とするウェブブラウザを開発する。 ソフトウェアの開発は大きく分けて2段階で行う。

1.テキストマイニングエンジンの開発
  ユーザが閲覧したページを蓄積し、重要なキーワードを高速かつ高精度に抽出 するエンジンを開発する。このために用いるインデックスは、単語Nグラム(N 個 の単語のつながり)を表す木構造であり、高速な検索を可能にしながら従来手法 より大幅に省スペースであるため、より大きなテキストが扱える。また質の面で も、「Vista搭載パソコン」のような複合語も扱える上、「東京都知事」の中の 「京都」のような本来存在しない単語は扱わないため、高精度なマイニングが期 待できる。

2.ブラウザとの統合
  1のエンジンを用いてウェブブラウザに以下の機能を実装する。
・キーワード表示(自動抽出によるキーワードが表示され、1クリックで検索等が 可能)
・自動リンク(関連サイトを自動的に検索して提示)・自動キーワードハイライト(特に重要なキーワードをハイライト)
・ページの要約表示

 ユーザが実際に見たページやクリックしたキーワードがテキストマイニングの 重要なデータとなり、ブラウジングとマイニングが相互によい影響を与え合う関 係を作ることがこの二つの融合だといえる。



7.採択理由(担当PMからのコメント)

この提案は、従来のWeb検索に加えて、辿り着いた複数のWebページからキーワードを抽出し、それらをハイライト表示したり、そこからさらに先のリンクを表示したりするテキストマイニング機能を追加しようとする試みである。提案の中でも述べている通り、少ない文字数のWebページの中から、いかに効果的に適切なキーワードを抽出するかが、また、それをいかに短い時間で抽出できるかが、本研究の要と思われる。単独のWebページよりも、連続して閲覧した一連のWebページからのキーワード抽出が特に効果的である。
このキーワード抽出と従来からの検索との使い分け、および、それらの両者の融合が、実際にどういう使い勝手をWebユーザーにもたらすか、興味のあるところである。





  ページトップへ   






Copyright(c) Information-technology Promotion Agency, Japan. All rights reserved 2007