IPA


開発成果一覧へ





2004年度第1回未踏ソフトウェア創造事業  採択案件評価書


 



1.担当PM

   長尾 確 (名古屋大学 情報メディア教育センター 教授)



2.採択者氏名


 代表者

伊藤 一成(慶應義塾大学 大学院理工学研究科)

共同開発者

なし



3.プロジェクト管理組織


  株式会社リオ



4.委託金支払額


  5,739,539 円



5.テーマ名


  アノテーションの概念を用いた情報共有・処理フレームワークの開発



6.関連Webサイト


 



7.テーマ概要


 
アノテーションとは、メタデータと同様にコンテンツに関する内容を記述したデータ一般のことをいう。アノテーション技術の発展により任意の種類のデータやエンティティを対象とした、機械翻訳、情報検索、自動要約、質問応答、知識発見システムなどの実用化や、より高度なデータの加工提示や情報共有が可能となり、その有用性は計り知れない。また、アノテーションはその情報を他人が利用して初めて価値があるものであり、アノテーション情報共有のためのフレームワークの構築が望まれる。そこで本プロジェクトでは、アノテーションの概念に基づく高度情報共有・処理環境の実現を目的とした応用システム構築の上で有用となるライブラリ及びコンポーネントの開発を行った。これは、以下のものから成る。
 1. アノテーションデータをオブジェクト化し、管理・共有するためのアノテーションサーバー
 2. 様々な形態のアノテーションデータに対して自然言語処理等を可能とするアノテーションライブラリ
 3. アノテーションデータ群の情報可視化による発想支援、アノテーション生成支援、協調作業及びユーザ主導の各種処理(検索・要約・関連情報提示等)を実現可能とするコンポーネント




8.採択理由

 

 アノテーションの流通プラットフォームを構築し、公開するという試みは重要である。また、自然言語処理研究者がアノテーションに基づくコンテンツの高度な検索や要約を実現するための API を用意するという点も今後の大きな発展性を感じさせる。提案者のソフトウェア開発能力も高いと思われる。期間中にさらに内容に深みが加わることを期待して、採択とする。




9.開発目標

 

 アノテーションの概念に基づく高度情報共有・処理環境の実現を目的とした応用システム構築の上で有用となるサーバーシステム、ライブラリ及びコンポーネントの実装。




10.進捗概要


 現時点で以下の三点についての実装が完了している。
 第一にアノテーションデータのための汎用性の高い処理系の構築である。
 本処理系において、ジェネレータ及びパーザの機能に加え、自然言語処理技術を応用した検索、条件無し(大域)要約、条件付要約、関連情報抽出等の処理プロセスを提供している。
 第二にアノテーションデータの生成に加え、処理系で提供されている検索、(条件付き、条件無し)要約、情報抽出処理を同一の簡易な操作で実現できる汎用性の高いインタラクティブ型情報可視化インタフェースの実装である。可視化技術の利点としては、マウス操作などによって、キーボード入力とは異なる直接的なインタフェースを与えられることや、情報空間での自分の位置の把握ができることなどが考えられる。逆に、問題点としては、構造がほぼ一意にしか与えられないことと、システム側に主導権があり、ユーザ側には視覚表現を変える手段が十分に与えられていないことが指摘されていた。つまりはインタラクティブな情報視覚化手法が特に重要である。そこで、可視化技術を用いてアノテーションデータを視覚的にわかりやすい形で提示し、アノテーションの対象であるコンテンツへのアクセスも実現した。さらにユーザの要求に応じた多様な表示形式を実現した。このインタフェース上でユーザ群が協調してアノテーションデータを生成していく、つまり協調型オーサリングツールとしても機能する。これにより情報の共有や創造,ユーザ主導のマイニング処理をサポートする。
 第三にアノテーションサーバーの構築である。多人数アノテーションを考える上でサーバーは重要である。アノテーションサーバーを中心とする全体のシステム構成図を図1.1に示す。本サーバーの特徴として、単にアノテーション情報を入出力するだけではなく、構文解析器によって言語情報をGDA (Global Document Annotation)と呼ばれるアノテーション仕様に基づいてタギングする。次に追加されたアノテーションに関する他のアノテーションとの関連度(類似度)、重要度(スコア)、アノテーションの表示における最適配置座標を計算し、データオブジェクトファイルとして保持し、これらの情報が更新されたことを各クライアントに通知する。これにより、クライアントは必要に応じて、アノテーションデータだけではなく、その類似度、重要度、配置座標に関する情報も獲得することができる。さらに、クライアントからのアノテーションの追加などに際して、その情報を瞬時に他のクライアント群に通知できる。これによりチャットのようなリアルタイム性が要求される仕組みも実現した。

 

 

図1.1 システム構成



11.成果


 以下の4点に関する成果が得られた。
 1.MAML(Multimedia Annotation Markup Language)処理ライブラリ
 JavaのXML,XPathライブラリをベースにした。ベクトルモデルをベースにした検索手法と、吉見らが提案しているテキスト要約手法をベースにした要約手法を採用した。
 MAMLジェネレータ,アナライザに加え自然言語処理を基軸とする各種処理を実装した.具体的には検索処理、大域要約処理、条件付要約処理、関連情報抽出処理、自動クラスタリング処理の5つである。
 2.アノテーションGUIインタフェース(MAML System)
 Javaによる実装。以下のアノテーションサーバーとの通信にはJava RMIテクノロジを利用した。多様な表示形式をサポートするアノテーション活用のためのインタフェースを実装した。スクリーンショットを図1.2に示す。HTMLによる表示形式も実装した。図2の右下にあたるHTML表示モードである。このモードではアノテーションのツリーをあたかも一つの記事として表示できる。


 

図1.2 表示モード一覧

 

 3.アノテーションサーバー
 Javaによる実装。RMIオブジェクトをレジストリに登録し、それを通じて通信を行う。各クライアントはRMIオブジェクトに対してConnectorの登録を行う。これによりサーバー側から任意のクライアントに対して情報をプッシュできるようにした。アノテーションテキストの類似度、重要度、最適配置計算処理を1のMAML処理ライブラリを用いて実装した。
 4.応用機能の実装
 Javaによる実装。機能として以下のものを実装した。
 ・Servlet及びMAML-HTMLコンバータ
  URL拡張されたHTTPリクエストによるエレメントの登録や類似度などの関連情報の入手が可能となる。さらにMAMLからHTMLに変換するコンバータも用意されているので、HTMLベースのシステムを構築できる。
 ・ Ping Server
  Blogで広く用いられているXMLRPCによる処理をサポートする。Blogシステムの構築が可能となる。
 ・Aggregator
  本システムと連携するAggregatorである。これによりMAML SystemをRSSリーダとして利用できるようになる。
 ・Proxy Server
  本システムと連携するプロキシである。アクセスログマイニングに基づくエンティティ及びアノテーションの登録や、リクエストのあったホームページに対して動的にアノテーションを追加してブラウザに送信するなどの機能を実現する。
 これら機能を利用した応用事例を図1.3に示す.

 

 

図1.3 応用事例




12.プロジェクト評価


 実装のプロセスは着実であり、開発途中で被験者実験を行ってフィードバックしている点も評価できる。個々のシステムの機能も妥当なもので、広範囲の有用性のあると判断できる。問題は、報告会等での成果の見せ方が不十分で成果の内容が聴衆にうまく伝わらなかったことである。企画力、実装力と同様にプレゼンテーション能力も本質的な能力であることが、このプロジェクトから窺い知れる。

 



13.今後の課題


 最も重要な課題は、実装された仕組みを何らかの形で一般公開することである。それによって、今後追加すべき機能や修正すべき点が明確になるだろう。
 プロジェクトリーダーが報告書で述べているように、本システムは、将来的にSemantic Webへの応用を考えるべきだろう。現時点のSemantic Webで本質的に欠けている点は、コンテンツのセマンティックスを誰がどのように記述するかということであり、アノテーションデータに対する自然言語処理による意味構造の明示化は、そのための有力なアプローチである。アノテーションの意味構造化のコストを低減するために、意味解析レベルの自然言語処理や機械学習等の要素技術を組み合わせ、その機械的処理の過程で生じた精度の低下や過りを人手による修正作業を行って、段階的かつ部分的にWebコンテンツのオントロジーを構築していくための仕組みを実現してもらいたい。


  ページトップへ   






  Copyright(c) Information-technology Promotion Agency, Japan. All rights reserved 2004