デジタル人材の育成
最終更新日:2022年6月20日
本プロジェクトでは音声不要の、誰でも自由自在に利用できる無声発話(サイレントスピーチ)インタフェースを開発する。具体的には、スマートフォンの内蔵カメラを用いた利用者の口元画像を元にリップリーディングを行い、発声を必要としないサイレントスピーチ入力を実現する。
従来のリップリーディングシステムはデータ収集に膨大な手間がかかったり、使用可能な語彙数も限られていたりするなどの課題が存在する。本プロジェクトでは、One-shot転移学習を用いたリップリーディングモデルを実装し、大規模なデータセットで事前学習を行うことよって、1サンプルだけでコマンドを登録できるリップリーディングシステムを実現する。これにより、語彙数の制限が解消され、サイレントスピーチコマンドをその場でカスタマイズすることが可能になる。
このリップリーディングによる認識手法とモバイル端末のボイスアシスタント機能を連動させることで、モバイル端末で気軽に利用できる、直感的で表現力の高い無声発話による入力を実現する。
音声インタフェースは、今やどこでも誰もが使えるインタフェースとして普及しているが、発話を前提とするため、騒音の影響を受けたり公共の場での発話が難しいなど、環境面での制約が多いのが課題である。
本提案は、リップリーディングに基づいたサイレントスピーチインタフェースをスマートフォンに実装することを目指している。具体的にはOne-Shot転移学習を用いてリップリーディングを実装するとともに、スマートフォンのカメラとマイクを利用した個々にカスタマイズ可能なサイレントスピーチコマンド機能も計画しており、発話を前提とする音声インタフェースの「次」を担うことができるユニークな提案と考え採択した。
リップリーディングとスマートフォンで、これまでに経験したことない新しい世界を開いてくれることを期待したい。
2022年6月20日
2022年度採択プロジェクト概要(蘇・方PJ)を掲載しました。