デジタル人材の育成
田中 二郎(筑波大学大学院 システム情報工学研究科 教授)
チーフクリエータ
太田 悠平(東京工業大学 大学院総合理工学研究科 物理情報システム専攻修士1年)
コクリエータ
馬越 健治(早稲田大学 大学院 基幹理工学研究科 情報理工学専攻修士2年)
手書きデータを,検索やデータマイニング等,電子データのように扱いたい.音声認識とOCRを組み合わせれば,手書きデータを電子データのように扱える可能性がある.音声認識とOCRの誤差ベクトルは全く異なるため,認識精度が爆発的に向上する可能性があるからである.
本プロジェクトでは,基盤アルゴリズムとして,手書きOCRと音声認識の結合評価結果である最適筆記を用いた,高精度かつ誤記にロバストな手書き文字列認識法を提案する.結合に必要な計算のほぼ全てが最適筆記探索問題となることを示し,その汎用性を,提案アルゴリズムによって実演する.
提案する最適筆記探索法では,最終結果のみの結合ではなく,メモリ制約による枝狩りが生じる前に結合することで,精度と速度を同時に向上させる.リアルタイム処理実現のため,探索途中結果のマージ,再利用を行うLive Bandsによる筆記マッチングアルゴリズムを構築し,OCR尤度を音声認識アルゴリズムにフィードバックし,最適筆記を定める.
最適筆記探索アルゴリズムの探索幅を狭めた逐次的探索によって,高精度な筆記書き起こしシステムを実現する.さらに,探索幅を広くし,認識尤度の高い局所最適解を拾い上げることで,OCR結果中のキーワードの検索を可能とする.
筆記書き起こしシステム,キーワード検索システムによって構築されたアルゴリズムの応用として,素早く,正確に手書きOCR結果を補正できるGUIを作成し,本提案の有効性を確認する.
音声認識とOCRを組み合わせ、手書きデータを電子データのように扱うことを提案している。提案する最適筆記探索法では、最終結果のみの結合ではなく、探索途中結果のマージや再利用を行うLive Bandsによる筆記マッチングアルゴリズムを構築し、OCR尤度を音声認識アルゴリズムにフィードバックし最適筆記を定めている。筆記書き起こしシステムの応用として、素早く正確に手書きOCR結果を補正できるGUIの作成システムを挙げている。興味深い提案である。