デジタル人材の育成

未踏IT人材発掘・育成事業(ユース):2008年度上期採択プロジェクト概要(川場PJ)

1.担当プロジェクトマネージャー

  • 筧 捷彦(早稲田大学 基幹理工学部 情報理工学科 教授)

2.採択者氏名

  • チーフクリエータ:川場 真理子(筑波大学大学院システム情報工学研究科・博士前期課程2年)
    コクリエータ:中崎 寛之(筑波大学大学院システム情報工学研究科・博士前期課程1年)

3.未踏ユースプロジェクト管理組織

  • 株式会社メルコホールディングス

4.採択金額

  • 3,000,000円

5.テーマ名

  • 多言語ブログにおける文化間ギャップ発見システム

6.関連Webサイト

  • なし

7.申請テーマ概要

近年、多くの人が海外に出かけ、また多くの外国人が日本を訪れるようになった。また、それに伴って、異文化交流の機会も増えてきた。そのような際に、自分の知っている知識や考えと相手が知っている知識や考えのギャップに驚く人も多いのではないだろうか。
従来、何かのトピックにおける海外での意見や情報は、海外の情報を買ってきたり、特派員を派遣しなければ得られないものであった。しかし、インターネットの爆発的普及により、世界中の情報を日本にいながら得られるようになった。また、ブログやSNS、Wikipediaに代表される、Web2.0的コンテンツの登場により、多くの人々が手軽にコンテンツを作成することが可能になった。特にブログは世界中の人によって書かれ、多くの意見や情報が日々更新されている。ブログから同一トピックにおける日本と海外の比較を行うためには、英語と日本語両方の言語のブログを読む必要がある。しかし、両言語でトピックについて特徴的記事が書かれたブログを取得するのは困難であり、またどのような観点でブログを読むべきかを明確にしておく必要がある。そこで、我々は、ユーザがトピックを入力すると、日本語と英語両方のブログから関連するキーワードや文を取得し、ユーザに提示するシステムを作成する。関連するキーワードや文章があれば、特徴的な意見はどのようなものか、どのような観点でブログが書かれているか、などを知る手助けが出来る。
たとえば、「遺伝子組み換え食品」について検索したとする。そのとき、検索結果のウェブページだけでなく「加工食品」「健康」「農薬」「品質管理」「体に悪い」などのキーワードや「どういう影響が出てくるか分からないから怖い」といった文章がまとめて表示される。同様に英語で「Genetically modified organism」に関連する「cloned food」や「bio-technology」「environmental」「genetic engineering」などのキーワードや「In the U.S., the use of GM crops is already widespread. As new discoveries are made, bio-engineers could be the world's first-line defense against hunger」のような文章が表示される。
すると、日本では遺伝子組み換え食品に対して否定的な意見が多く、外国では否定だけでなく、食料危機の問題に対する遺伝子組み換え技術への期待などの肯定的な意見も見られる、ということが分かる。
そして、これらのキーワードや文章を比較することで、日本語と英語で遺伝子組み換え食品に対して、どのような意見の違いがあるのかを発見することが出来る。
我々はユーザが何かトピックについて検索すると、そのトピックに特徴的なキーワードや段落などを抽出し、日本語と英語両方を一度に提示するシステムを作成する。
日本と海外の意見を得るための情報源としては、ニュースやウェブページなど様々な物が考えられるが、今回は、日々増え続け、かつ主観的な意見、客観的な考察の両方が多く記述される、ブログを使用する。
また、関連するキーワードなどを抜き出したり、段落を抽出したりするためにはあらかじめトピックにおけるブログを検索しておかなければならない。
そのためトピックのリストをあらかじめ用意しておく必要があるが、人間の思いつく限りの細かさであらゆる分野を網羅してあり、さらに、トピックが整理され、体系化されている必要がある。
また、日本語と英語で両方の訳を得られるものが良い。よって、トピックのリストとしてWikipediaのカテゴリ体系を利用する。
Wikipediaは世界中で利用されるWeb百科事典として有名であり、現在日本語で40万記事、英語で200万記事ある。
また、日々増え続けているために新語などにも対応できるという利点もある。

8.採択理由

プロジェクトのタイトルは、なかなか意味深長というべきか、曖昧性が高いというべきか、いろいろにとれてしまうものである。実際は、同じテーマを扱っている日本語vs.英語のウェブ文書を材料として「文化間ギャップ」を調べるためのシステムを作る、というのがその本題である。このときウェブ文書が日本語と英語のものを比較しているものの、比較されているものは、日本での認識と、他国(アメリカとかイギリスとかに限らず、中国とか韓国とか)での認識との違いである。
すでに提案者は、さまざまな形で下調べをし、データを集めている。それらを元にして、「文化間ギャップ」を的確に比較し発見するシステムを組み立てたい、という。システムを作ることに関しては、これからやらなければならないことがたくさんある。計画は、材料となるウェブデータとしてWikipediaを使うことにして、一つのタイトルに対して、そこに書かれている内容から関連キーワードを抽出するとともに、ブログサイト中からそのタイトルを含むもの検索してきて同様に関連キーワードを抽出する。これら抽出された関連キーワードの集合に対して、言語間での翻訳対応を調べることで、差異を検出しよう、というのである。
手作業で行ってきたことをシステム化するとはいっても、現実的には、「同じテーマ」を扱っていることの判定、違いが生じていることの自動的なまとめ方など、いろいろとシステムとしての工夫が必要になる。なんといっても、提案者自らがそのツールを必要としているし、その上でやりたいことを山ほどもって目を輝かしているので、そうした工夫を重ねて新しい「発見」を助けてくれるツールが、便利に仕上がってくるに違いない。