|
インターネットが始まり様々な情報をWebサイトに載せるようになってから、スクレイピング技術の需要が起きた。天気予報や為替相場、株価などの情報を自動的に取得して、別のシステムでデータとして活用したいと望むのは自然な流れだ。ブロードバンドの普及、軽量スクリプト言語の発明、Ajaxの整備など、いくつかの条件が重なってマッシュアップというのが盛んになってきている。マッシュアップとは、複数のサイトからデータを組み合わせて新しい価値を生み出すことである。
しかし、マッシュアップするためにはWebサイトがRSSやWeb APIを提供していないと不自由だ。そこでスクレイピング技術を用いれば独自のAPIを作って、Webサイトにあるデータならばすべて活用できる。ブラウザ上で人が目に触れるものは、システムとしてすべて利用できるようになるだろう。
ただし、独自のAPIを自動で作るようなスクレイピング技術の発展が必須である。このプロジェクトで作成するソフトウェアは、AIで研究されてきたフレーム理論を用いてそのスクレイピングの精度を高めるものである。ソフトウェアは以下のモジュールから構成される。
・スクレイピングを行うモジュール
・そのスクレイピングを判別するDOM解析
・フレーム理論を活用する部分
・他のマッシュアップツールと連携を取る部分
・Ruby on Railsを活用したGUIによる支援ツール
このソフトウェアが公開されて多くのプログラマーが利用していただければ、各々のサイトに分散されている情報が統合され、インターネット全体を一つのシームレスなデータベースとする一歩になると思う。またキーワードを元にした検索エンジンが普及しているが、その次の課題は情報を理解する意味的ネットワークである。このソフトウェアがその橋渡しの一つとなることを希望する。
|