HOME未踏/セキュリティ・キャンプ2010年度 採択案件概要

本文を印刷する

未踏/セキュリティ・キャンプ

2010年度 採択案件概要

1.担当PM

 後藤 真孝PM(産業技術総合研究所 情報技術研究部門 メディアインタラクション研究グループ長)

2.採択者氏名

 チーフクリエータ:笠原 誠司(奈良先端科学技術大学院大学)

 コクリエータ:なし

3.採択金額

 1,792,000円

4.テーマ名

 大規模データを用いた統計的日本語校正アプリケーション

5.関連Webサイト

6.申請テーマ概要

 日本語学習者の書いた文章の校正を大量の言語データを利用して修正するアプリケーションの開発を行う。
 現在、lang-8やLivemochaなどといった、言語学習SNSに日本語を学習したい外国人が多くの作文を寄せている。また、日本語学校に通い熱心に学習している外国人もいる。しかし本人の意思にもかかわらず、日本人に指示してもらうことができる量と時間は限られている。

 また近年、日本語版Wikipediaや青空文庫など大量の日本語言語データが手に入りやすくなっている。それに加え、情報技術の発達により、インタラクティブなアプリケーションをWebブラウザのみで利用できる仕組みが発達してきている。

 これらの状況をふまえ表題の通り、言語データを統計的に処理し、日本語文章の校正を行うアプリケーションを作成する。完成品はWebアプリケーションとして公開する事で広く世界で使用してもらい、日本の文化、社会に興味を持ってもらいたいと考えている。

7.採択理由

 多量の日本語テキストに基づいて、日本語学習者が書く日本語文章中の誤りを検出・指摘し、訂正候補を提示するシステムの提案である。正しい文章だけを正例の学習データとして利用するのではなく、「学習者がどの単語をどの単語と間違えやすいか」という負例のデータを日本語学習者が集うWebサイトから収集して活用することで、精度を高めることができる特長を持つ。「200億文を使いこなす」、「無料で本当に使える日本語校正アプリケーションを目指す」と明言しているところが素晴らしい。

 笠原君は、自身の英語学習時に苦労して大きく上達した経験から、語学学習の支援に高いモチベーションをもっているところが素晴らしく、学内で運用されているtwitterアプリ関連の開発経験からも、実用的な校正アプリケーションを公開し、広く使われるところまで根気強く頑張ることが期待できる。日本語学習者用のWebサイトから人手による添削データを入手するだけでなく、まだ添削されていない文章を、笠原君の実現した日本語校正アプリケーションによって自動的に添削し、その結果を元のWebサイトにアップロードして還元するところまで、是非挑戦して欲しい。笠原君の頑張りに大いに期待したい。

未踏/セキュリティ・キャンプ