デジタル人材の育成

未踏IT人材発掘・育成事業(ユース):2010年度採択プロジェクト概要(笠原PJ)

1.担当プロジェクトマネージャー

後藤 真孝(産業技術総合研究所 情報技術研究部門 メディアインタラクション研究グループ長)

2.採択者氏名

  • チーフクリエータ
    笠原 誠司(奈良先端科学技術大学院大学)

  • コクリエータ
    なし

3.採択金額

  • 1,792,000円

4.テーマ名

  • 大規模データを用いた統計的日本語校正アプリケーション

5.関連Webサイト

  • http://cl.naist.jp/chantokun/

6.申請テーマ概要

日本語学習者の書いた文章の校正を大量の言語データを利用して修正するアプリケーションの開発を行う。
現在、lang-8やLivemochaなどといった、言語学習SNSに日本語を学習したい外国人が多くの作文を寄せている。また、日本語学校に通い熱心に学習している外国人もいる。しかし本人の意思にもかかわらず、日本人に指示してもらうことができる量と時間は限られている。

また近年、日本語版Wikipediaや青空文庫など大量の日本語言語データが手に入りやすくなっている。それに加え、情報技術の発達により、インタラクティブなアプリケーションをWebブラウザのみで利用できる仕組みが発達してきている。

これらの状況をふまえ表題の通り、言語データを統計的に処理し、日本語文章の校正を行うアプリケーションを作成する。完成品はWebアプリケーションとして公開する事で広く世界で使用してもらい、日本の文化、社会に興味を持ってもらいたいと考えている。

7.採択理由

多量の日本語テキストに基づいて、日本語学習者が書く日本語文章中の誤りを検出・指摘し、訂正候補を提示するシステムの提案である。正しい文章だけを正例の学習データとして利用するのではなく、「学習者がどの単語をどの単語と間違えやすいか」という負例のデータを日本語学習者が集うWebサイトから収集して活用することで、精度を高めることができる特長を持つ。「200億文を使いこなす」、「無料で本当に使える日本語校正アプリケーションを目指す」と明言しているところが素晴らしい。

笠原君は、自身の英語学習時に苦労して大きく上達した経験から、語学学習の支援に高いモチベーションをもっているところが素晴らしく、学内で運用されているtwitterアプリ関連の開発経験からも、実用的な校正アプリケーションを公開し、広く使われるところまで根気強く頑張ることが期待できる。日本語学習者用のWebサイトから人手による添削データを入手するだけでなく、まだ添削されていない文章を、笠原君の実現した日本語校正アプリケーションによって自動的に添削し、その結果を元のWebサイトにアップロードして還元するところまで、是非挑戦して欲しい。笠原君の頑張りに大いに期待したい。