IPA


IPAトップ





平成15年度未踏ソフトウェア創造事業  採択案件評価書


 



1.担当PM


 萩谷 昌己  (東京大学大学院 情報理工学系研究科 コンピュータ科学専攻 教授 )



2.採択者氏名


 代表者

小松 弘幸(東京工業大学大学院 大学院情報理工学研究科 数理・計算科学専攻 松岡研究室)

共同開発者

なし



3.プロジェクト管理組織


 日本エンジェルズ・インベストメント株式会社



4.委託金支払額


 8,000,000円



5.テーマ名


 予測入力の拡張



6.関連Webサイト


 http://taiyaki.org/prime/



7.プロジェクト概要


 本プロジェクトは、昨年 2002 年度に萩谷 PM のもとで実施されたプロジェクトである「予測入力の拡張」を引き継ぐものである。予測入力とは日本語入力手法のひとつであり、POBox などが代表例である。

 日本語予測入力とは、利用者が入力した最初の数文字から目的の単語を予測するものであり、予測される単語の候補は、利用者の入力が進行するにつれて、順次更新されていく。この入力法の援用により、少ないキー入力での文章作成が可能となり、特に携帯電話や PDA 等のキー入力コストが高いデバイスを中心に、広く普及している。

 本プロジェクトで開発を行う日本語予測入力システム PRIME (Predictive Input Method Editor) は従来のシステムと比較して、以下の点に特色がある。

 現在開発が続けられている日本語予測入力システムで、フリーソフトウェアは、本プロジェクトで開発されている PRIME のみである。また、PRIME の開発に伴い作成された各種ライブラリや辞書は汎用性を持つように設計されているため、PRIME 自体は使用しないが、ライブラリや辞書の一部のみをソフト開発に利用する、という使い方も可能となる。

 また、PRIME はアプリケーションとの様々な接続方法を提供する。例えば、ライブラリとしての組み込み、サーバクライアント方式によるネットワーク接続などである。

 さらに予測方法の技術的な面においても PRIME は新しい試みを行っている。従来の予測方法は仮名漢字辞書と学習辞書のみに基づいていたが、PRIME はさらに入力文章中の文脈も考慮する。また、動的単語補完手法 Nanashiki や文書蓄積システム Kukura の援用も試みている。



8.採択理由


 昨年度の引き続き、予測入力システムの拡張として、連文節変換への対応、形態素解析との連携、新たなクライアントの開発など、意欲的な提案を行っています。



9.開発目標


 本プロジェクトの目標は大きく分けて「新しい予測方法の作成」および「実用性の高いソフトウェアの作成」に大別される。項目としては、以下の5つである。この中で、手書き予測は中間報告後に設定されたものである。
 1. 連文節予測
 例えば、「未踏ソフトウェア」という単語は登録されておらず、「未踏」と「ソフトウェア」だけが単語登録されている条件を考える。連文節に対応した予測とは、この条件下で「みとうそ」という入力に対して「未踏ソフトウェア」という単語の予測を可能にすることである。前年度のプロジェクトでは単文節変換を行うことが可能となった。今年度は連文節変換への対応を目指す。
 2. 手書き予測
 手書き予測とは、ペンデバイスなどによる手書き入力のための候補予測のことである。具体的な内容としては、例えば「未」という入力から「未踏事業」の予測や、「しょう油」から「醤油」の予測などを可能とした。この手書き予測は本プロジェクトの応募時には計画に盛り込まれていない。プロジェクト実行中に新規に実装した内容である。
 3. 周辺環境の整備
 周辺環境の整備とは、本プロジェクトの成果物をより実用的に利用するための、辞書や簡易な導入方法の実現などのことである。具体的な内容は「辞書の拡充」、「簡易な導入方法の実現」、「既存のIMEとの親和性の向上」、「辞書のデータ構造の再設計」、「入力手法の拡大」などである。
 4. 単語登録の改善
 これまでは利用者による手作業であった単語の登録を、自動的に、または半自動的に行う方法を提案した。具体的には、利用者がこれまでに参照した文書のデータベースや、インターネットなどを活用した方法をもちいて、登録単語の品詞判定や単語情報そのものを自動的取得する方法を提案した。
 5. 日本語リソースの共通化
 日本語リソースの共通化とは、例えばかな漢字辞書などの、日本語処理を行うソフトウェアで用いるリソースの共通フォーマットを策定・活用することである。



10.進捗概要


 まず上記の目標を達成するための準備として PRIME の辞書の機能・速度・サイズ・移植性を改善する必要性から、そのデータ構造を抜本的に作り直し、新たなデータ構造を実装した。

 形態素解析器MeCabとの連携および、同義語辞書などを活用した予測は現在も開発中である。前述のDixChangeプロジェクトと連携を図りながら、本プロジェクト終了後も継続して開発を行う。

 手書き予測入力および、単語登録の改善は、プロジェクトの開始後新規に実装された内容である。また、周辺環境の整備も当初の予想よりも大幅に向上した。実用的なソフトウェアの作成を第一とするために、実施計画よりも利用者の要望などを優先する形となった。



11.成果


 本プロジェクトの成果を以下にまとめる。


  1. 日本語入力予測システムを作成した。
  2. 辞書環境も含め、フリーソフトウェアとして提供。
  3. 新規性の高い予測方法を提案し、実現した。
  4. システムは日常利用可能な完成度を持つ。

 また、2と関連して、DixChange プロジェクトを発足した。本プロジェクトの応募時に提案した「MeCab との連携」には、PRIME と MeCab の辞書データの統一が必要である。当初は PRIME と MeCab の辞書データの共通化のみを予定していたが、より広い範囲での日本語リソースの共通化を目指す方がよいと考え、DixChange プロジェクトを発足した。DixChange プロジェクトは PRIME と MeCab の連携だけでなく、例えば本予測入力システム PRIME と、昨年度の未踏プロジェクトであるかな漢字変換システム Anthy との連携も可能とする。また応募時の内容である「フリーライセンスの辞書の作成」も、この DixChange プロジェクトと関連する。



12.プロジェクト評価


 本プロジェクトの採択時のコメントは以下のようであった。

 昨年度の引き続き、予測入力システムの拡張として、連文節変換への対応、形態素解析との連携、新たなクライアントの開発など、意欲的な提案を行っています。

 本プロジェクトは、昨年度よりの継続である。昨年度の評価は以下のようである。

 予測型の日本語入力の企画と開発に関して、非常に高い能力を発揮している。 技術力もプログラミング能力も非常に高い。また、普及に対する意志も強い。 もうほんの少しでAというところである。

以上のように、本プロジェクトは昨年度のプロジェクトの中でも高く評価したものであるが、今年度、さらなる拡張の提案があったので、日本語入力システムとしてより広く定着させようという意図もあり採択した。
 今年度も、昨年度に引き続き、意欲的に開発を行った。特に、日本語リソースの共通化を目指すDixChange プロジェクトを発足させた。これには、未踏ソフトウェアの他のプロジェクトも参加しており、小松氏のイニシアティブの為せる技である。
 海外で生活を始めたこともあり、前期は開発が少し遅れ気味であったが、後半で十分に遅れを取り戻し、当初の開発目標になかった手書き予測の機能まで完成させた。
 現時点で、小松氏のPRIMEは日本語入力システムとして既に定着している。また、小松氏自身は、DixChange等を通してオープンソースのムーブメントでキーとなる存在になっている。スーパークリエータに十分に値すると考える。



13.今後の課題


 未踏採択は今年度で2回目であるため、来年度以降は未踏のサポートはない。今後、DixChangeも含めて、いかにして開発を持続させるかが最も大きな課題であろう。

  ページトップへ   






  Copyright(c) Information-technology Promotion Agency, Japan. All rights reserved 2004