IPA






2006年度下期未踏ソフトウェア創造事業(未踏ユース)  採択概要


 



1.担当PM


  竹内 郁雄



2.採択者氏名


代表者

村脇 有吾(京都大学大学院情報学研究科知能情報学専攻

共同開発者

 なし


3.プロジェクト管理組織


  リトルスタジオインク株式会社



4.採択金額


  2,550,000



5.テーマ名


  キリル文字モンゴル語形態素解析器の開発



6.テーマ概要 (応募時資料を一部分改訂)

モンゴル語は話者数に比して盛んに研究されている言語である。日本語との構造的な類似から、日本語における自然言語処理の成果の応用が期待できる。しかし、モンゴル語の自然言語処理のリソースは整備されているとは言いがたい。そこで、モンゴル語形態素解析器の開発を提案する。
形態素解析は、自然言語処理の基礎技術である。構文解析や機械翻訳といった次の段階の処理の基盤になるほか、全文検索などにも欠かせない。それ加えて、モンゴル語特有の事情であるが、キリル文字からモンゴル文字への変換も可能とする。
提案するモンゴル語形態素解析器は、次のような手順で開発する。
(1) 活用変化する名詞と動詞について、語生成ライブラリを作成する。母音調和や形態素接続にともなう語形変化など、モンゴル語特有の性質を考慮に入れた設計を行う。
(2) これに基づき、活用した名詞と動詞を形態素に分解する語分解モジュールを開発する。
(3) 語分解モジュールを用いた形態素解析器を開発する。これにより、活用しないその他の品詞にも対応し、文を入力として受け取り、形態素列を出力するシステムを完成させる。
(4) さらに、未知語、外来語の処理、重複法の処理、正書法に従わない通俗的な綴りへの対処など、実用上必要な処理も、モンゴル語の特性を生かして行う。



7.採択理由(担当PMからのコメント)

タイトルを見ただけで「未踏」ということが直観できるプロジェクトだ.竹内はモンゴル語の表記にキリル文字 (ロシア語に使われる文字) とモンゴル固有のモンゴル文字の2種類があることを初めて知った.モンゴル語の文法は日本語によく似ているため (膠着語),形態素解析ができるだけで,ある程度意味のわかる日本語への逐語訳が成立するそうだ.それに単語に接頭辞や接尾辞が複雑な形でくっついて変化する膠着語は形態素解析をしないことには,全文検索すらままならない.
  村脇君は「職業的プログラマになるつもりはない.ソフトウェア技術は自分の興味を満たすための手段である」と言い切る.実はこういうタイプの人が先駆的な仕事をよく成し遂げる.手段を使いこなす腕前は本人が謙遜するよりは確かだ.それにしてもその興味の幅広さに驚かされる.修士研究とはまったく別のこのソフト開発に,余分な気負いのない余裕と余力が感じられる.
  現在,電子化されたモンゴル語関係の辞書はいくつかあるが,入手困難だったり,形態素解析にそのままでは利用できない形なのだそうだ.文字どおり未踏の荒野に踏み出す雰囲気だが,このプロジェクトが進めばきっと協力者が集まってくるだろう.国際的にも意味のある,典型的な発信型ソフトの提案である.




  ページトップへ   






Copyright(c) Information-technology Promotion Agency, Japan. All rights reserved 2007