| ウェブブラウザの世界では激しい開発競争が行われているが、現在その多くは
多機能化に焦点が当てられている。そのためウェブ上で情報収集をするとなる
と、検索エンジンを駆使して候補を絞り込み、あとは実際にページを見て内容を
確認する必要がある。大量のページを扱うための機能は向上し続けているが、目
を通すのは結局ユーザであり、ウェブブラウザは忠実に表示する存在であった。
そこで本プロジェクトではテキストマイニングの技術を用い、ページからキー
ワード等の有用な情報を抽出し、ユーザの閲覧を補助する機能を搭載すること
で、ブラウジングの効率を改善することを目的とするウェブブラウザを開発する。
ソフトウェアの開発は大きく分けて2段階で行う。
1.テキストマイニングエンジンの開発
ユーザが閲覧したページを蓄積し、重要なキーワードを高速かつ高精度に抽出
するエンジンを開発する。このために用いるインデックスは、単語Nグラム(N 個
の単語のつながり)を表す木構造であり、高速な検索を可能にしながら従来手法
より大幅に省スペースであるため、より大きなテキストが扱える。また質の面で
も、「Vista搭載パソコン」のような複合語も扱える上、「東京都知事」の中の
「京都」のような本来存在しない単語は扱わないため、高精度なマイニングが期
待できる。
2.ブラウザとの統合
1のエンジンを用いてウェブブラウザに以下の機能を実装する。
・キーワード表示(自動抽出によるキーワードが表示され、1クリックで検索等が
可能)
・自動リンク(関連サイトを自動的に検索して提示)・自動キーワードハイライト(特に重要なキーワードをハイライト)
・ページの要約表示
ユーザが実際に見たページやクリックしたキーワードがテキストマイニングの
重要なデータとなり、ブラウジングとマイニングが相互によい影響を与え合う関
係を作ることがこの二つの融合だといえる。 |