デジタル人材の育成

未踏IT人材発掘・育成事業:2022年度採択プロジェクト概要(蘇・方PJ)

最終更新日:2022年6月20日

1.担当PM

  • 藤井 彰人(KDDI Digital Divergence Holdings株式会社 代表取締役社長/KDDI株式会社 執行役員 ソリューション事業本部 ソリューション事業企画本部)

2.採択者氏名

  • 蘇 子雄(東京大学大学院学際情報学府 学際情報学専攻)
  • 方 詩涛(東京大学大学院工学系研究科 電気系工学専攻)

3.採択金額

  • 2,736,000円

4.テーマ名

  • スマートフォン向けにカスタマイズが可能なサイレントスピーチインタフェース

5.関連Webサイト

  • なし

6.申請テーマ概要

本プロジェクトでは音声不要の、誰でも自由自在に利用できる無声発話(サイレントスピーチ)インタフェースを開発する。具体的には、スマートフォンの内蔵カメラを用いた利用者の口元画像を元にリップリーディングを行い、発声を必要としないサイレントスピーチ入力を実現する。

従来のリップリーディングシステムはデータ収集に膨大な手間がかかったり、使用可能な語彙数も限られていたりするなどの課題が存在する。本プロジェクトでは、One-shot転移学習を用いたリップリーディングモデルを実装し、大規模なデータセットで事前学習を行うことよって、1サンプルだけでコマンドを登録できるリップリーディングシステムを実現する。これにより、語彙数の制限が解消され、サイレントスピーチコマンドをその場でカスタマイズすることが可能になる。

このリップリーディングによる認識手法とモバイル端末のボイスアシスタント機能を連動させることで、モバイル端末で気軽に利用できる、直感的で表現力の高い無声発話による入力を実現する。

音声インタフェースは、今やどこでも誰もが使えるインタフェースとして普及しているが、発話を前提とするため、騒音の影響を受けたり公共の場での発話が難しいなど、環境面での制約が多いのが課題である。

本提案は、リップリーディングに基づいたサイレントスピーチインタフェースをスマートフォンに実装することを目指している。具体的にはOne-Shot転移学習を用いてリップリーディングを実装するとともに、スマートフォンのカメラとマイクを利用した個々にカスタマイズ可能なサイレントスピーチコマンド機能も計画しており、発話を前提とする音声インタフェースの「次」を担うことができるユニークな提案と考え採択した。

リップリーディングとスマートフォンで、これまでに経験したことない新しい世界を開いてくれることを期待したい。

更新履歴

  • 2022年6月20日

    2022年度採択プロジェクト概要(蘇・方PJ)を掲載しました。