デジタル人材の育成
本プロジェクトでは、ある人の声を別の人の声に変換する「声質変換」のためのハードウェアおよびソフトウェアを開発する。
声質変換という操作は「変換先話者が発する音素」を「変換先話者の声質」で再現することに他ならず、それは声質変換における最も重要なタスクが「声質」と「音素」という二要素の分離にあることを意味する。メルケプストラム抽出と動的時間伸縮の併用をはじめとした古典的手法や、深層学習を用いる新たな手法など様々な手法があるが、品質が十分でなかったり莫大な計算資源を必要としたりするなどの課題が残っており、声質変換が社会に普及するには未だ至っていない。
本プロジェクトではこれらの課題に対し、独自のマイクを用いることで解決を図る。とくに古典的手法で生じがちな子音やささやき声での誤変換を効果的に、個人で利用可能なレベルの計算資源で解決できる見込みである。本プロジェクトで提案する手法により高品質な声質変換が可能となることで、人々は自由な声で話すことができるようになる。この技術に加え、モーションキャプチャ技術などの自由な外見を得る技術を用いることで、仮想現実空間上でより自由な活動も可能になると考えられる。
現在VR空間でCGアバタを操作するチャットシステムやVR YouTuberことVtuberなどが話題になっている。そのような背景において、アバタに合わせて演者の声を変換させる声質サンプリングおよび変換技術が注目されている。声質変換自体は各所で研究されているが本提案は発話時の音源を独自のマイクで記録することで、ささやき声や子音などの変換と変換処理の実時間性を確保することを目指している点が興味深い。近年機械学習などの進展により、ソフトウェア上の処理のみで信号処理の諸問題が解決できるようになりつつあるが、人間に関わる技術分野において、ソフトウェアとハードウェアの適切な組み合わせにより劇的に性能が向上することは過去にも多く事例があり、ソフトとハードの匙加減も技術者の腕の見せ所である。提案者はすでに予備実験で独自マイクの効果の検証を開始しており、実装にあたってのフットワークの軽さと技術バランスのセンス、そして自らが本システムの完成を欲しているという当事者としての熱意を高く評価し、採択するに至った。