IPA


IPAトップ





2005年度未踏ソフトウェア創造事業(未踏ユース)  採択案件評価書


 



1.担当PM


 筧 捷彦   (早稲田大学教授)



2.採択者氏名


 代表者

岩井 貴史(慶應義塾大 学 環境情報学部)

共同開発者

植村 さおり(慶應義塾 大学大学院 修士課程)



3.プロジェクト管理組織


 財団法人国際メディア研究財団


  4.委託支払金額


 2,997,542円



5.テーマ名


 アラビヤ語形態素解析エンジンの開発 と、学習者向け辞書システムへの応用



6.関連Webサイト


 http://www.al-mintaz.org/



7.プロジェクト概要


 国際社会においてア ラビヤ語の重要性は日に日に高まりつつある。しかし,その学習において「辞書が引けない」ということが問題となっている。辞書を適切に引き意味を調べるた めには,引きたい単語の「見出し語」を把握している必要がある。だが,アラビヤ語は活用の激しい言語であり,文章中に現れる語の形と,辞書の見出し語が大 きく異なる場合が多い。さらに,単語同士の結合が頻繁に起こり,見出し語の判定をさらに困難にしている。文章中に現れる語を元に,活用や結合を処理し,見 出し語を導くためには,相応の文法知識が必要となるが,それを持たない初級・中級の学習者は,自分の知りたい単語にたどり着くことができず,学習の壁に なっている。
 そこでアラビヤ語の形態素解析エンジンの開発と,文章中に現れるそのままの語の形で検索可能な,学習者向けの辞書システムの開発する。いうなれば「誰に でも引けるアラビヤ語辞書」である。?形態素解析エンジンの開発に当たっては,アラビヤ語の活用は激しく,また活用のパターン数も多いが,1つ1つの活用 自体は規則的で,活用同士の関連にも秩序があるという点に注目する。単語の結合と活用の可能性についてのモデルを作り,活用のパターンを登録し処理するこ とで,文中の語から辞書の見出し語を自動的に得ることを図る。 
 また,導かれた見出し語の意味を表示することと併せて,見出し語から文章中に現れた語への変化の過程を表示する。これにより,アラビヤ語の学習の最重要 事項である,言葉の活用規則の習得を促進させる。




8.採択理由


 アラビア語は,文字を 認識するだけでも1週間かかる。まして, 辞書が引けるようになるには年単位の時間がかかるという。文字が認識できるようになって,書かれ た文字列を入力出来さえすれば辞書が引けるようになる。これが今回のプロジェク トの目標である。
 具体的には,分かち書きされる単位となる「語句」が与えられたとき, それを「品詞」(とその活用形)列に分解する「形態素解析」エンジンを開発 し,それを用いて辞書引きを補助するシステムと作り上げる。
 自らもアラビア語の読書を行い,より難しい書籍を読破したいという意欲に溢れるだけに,仕上がりが今から楽しみなプロジェクトである。



9.成果概要


 開発されたシステム は,ウェブアプリケーションとして実装されており,文章入力画面にアラビヤ語の文章を入力し送信すると,解析された語の意味が1語ごとに表示される。自ら アラビヤ語を学ぶ学習者は,自分の調べたい語をPC 上で入力することさえできれば,何の文法知識を持たなくとも,言葉の意味を調べることが可能となる。また,それ以外のユーザも,アルジャズィーラなどのア ラブのニュースサイトよりコピー&ペーストで文章を流し込むことで,普段日本では報道されないニュースの輪郭を,つかむことができる。


 



10. PM評価とコメント


 引けるようになるまで5年はかかると いわれるアラビア語辞書を,字形の判読さえできるようになれば引けるようにするシステムがあればどんなにいいか,という思いをそのまま実現したシステムで ある。システムを紹介するのに「形態素」解析と銘打っているが,日本語の場合とは違い,辞書にその単語の綴りそのものが載っていなくても,形態素変形の規 則(開発者は,パターンと呼んでいる)を使うことでその“原型”となり得る綴りの単語を導き出し絞り込めることに着目して作り上げたシステムである。裏に 用意した辞書に登録してある単語数がまだまだ限られたものであるにも関わらず,速度の点でも,辞書引き可能な‘単語’数の点でも,世の中にあるアラビア語 辞書に勝るとも劣る事のないシステムに仕上がった。
 今回のプロジェクトにおいて,ソフトウェアシステムとしての設計・開発を担当し,全体の進行を主導した岩井貴史さんは,当初Javaのライブラリを使っ てパターンマッチを実装したもののどうしても速度が出ず,あれこれ悩んでいた。あるとき同じ未踏ユースの開発者の一人から「そんな難しいパターンマッチン グが必要なわけでないんだから自分で書き下したら」いわれ,発奮して50倍もの高速化を成し遂げた。その吸収力,プログラミング力には抜群のものがある。 まさにスーパークリエータの称号にふさわしい。



  ページトップへ   






  Copyright(c) Information-technology Promotion Agency, Japan. All rights reserved 2004