IPA






2005年度未踏ソフトウェア創造事業(未踏ユース)  採択概要


 



1.担当PM


  筧 捷彦



2.採択者氏名


代表者

岩井 貴史(慶應義塾大学 環境情報学部

共同開発者

植村 さおり(慶應義塾大学大学院 修士課程



3.プロジェクト管理組織


  国際メディア研究財団



4.採択金額


  3,000,000



5.テーマ名


  アラビヤ語形態素解析エンジンの開発と、学習者向け辞書システムへの応用



6.テーマ概要(応募時資料を一部分改訂)

 現在の国際社会においてアラビヤ語の重要性は日に日に高まりつつある。しかし、その学習において「辞書が引けない」ということが問題となっている。
 辞書を適切に引き意味を調べるためには、引きたい単語の「見出し語」を把握している必要がある。だが、アラビヤ語は活用の激しい言語であり、文章中に現れる語の形と、辞書の見出し語が大きく異なる場合が多い。さらに、単語同士の結合が頻繁に起こり、見出し語の判定をさらに困難にしている。文章中に現れる語を元に、活用や結合を処理し、見出し語を導くためには、相応の文法知識が必要となるが、それを持たない初級・中級の学習者は、自分の知りたい単語にたどり着くことができず、学習の壁になっている。

 そこで我々はアラビヤ語の形態素解析エンジンの開発と、文章中に現れるそのままの語の形で検索可能な、学習者向けの辞書システムの開発を提案する。いうなれば「誰にでも引けるアラビヤ語辞書」である。
形態素解析エンジンの開発に当たっては、アラビヤ語の活用は激しく、また活用のパターン数も多いが、1つ1つの活用自体は規則的で、活用同士の関連にも秩序があるという点に注目する。単語の結合と活用の可能性についてのモデルをつくり、活用のパターンを登録し処理することで、文中の語から見出し語を得ることができると考えている。
 本辞書システムでは、導かれた見出し語の意味を表示することと併せて、見出し語から文章中に現れた語への変化の過程を表示する。これにより、アラビヤ語の学習の最重要事項である、言葉の活用規則の習得を促進させる。

 ますます重要性の増すアラビヤ語の学習者を支援し、ひいては世界平和や異文化理解に貢献することを、本提案の目標とする。



7.採択理由(担当PMからのコメント)

 アラビア語は,文字を認識するだけでも1週間かかる。まして, 辞書が引けるようになるには年単位の時間がかかるという。文字が認識できるようになって,書かれ た文字列を入力出来さえすれば辞書が引けるようになる。これが今回のプロジェク トの目標である。
 具体的には,分かち書きされる単位となる「語句」が与えられたとき, それを「品詞」(とその活用形)列に分解する「形態素解析」エンジンを開発 し,それを用いて辞書引きを補助するシステムと作り上げる。
 自らもアラビア語の読書を行い,より難しい書籍を読破したいという意欲に溢れるだけに,仕上がりが今から楽しみなプロジェクトである。




  ページトップへ   






  Copyright(c) Information-technology Promotion Agency, Japan. All rights reserved 2004