未踏IT人材発掘・育成事業（ユース）：2009年度上期採択プロジェクト概要（中野PJ）

1．担当プロジェクトマネージャー

安村通晃（慶應義塾大学環境情報学部教授）

2．採択者氏名

チーフクリエータ
中野皓太（立命館大学情報理工学部メディア情報学科）
コクリエータ
なし

3．未踏プロジェクト管理組織

株式会社ゴーガ

4．採択金額

2,960,000円

5．テーマ名

誰でも好みの曲を手軽に歌える歌唱支援システム

6．関連Webサイト

なし

7．申請テーマ概要

本テーマでは、使用者が入力した音声をリアルタイムで分析・加工し、誰でもプロ並の歌い方を体験できる新たなアプリケーションの開発を行う。

これは、カラオケにおいて歌詞の時間情報が既知である条件を利用し、事前に収録した他者の歌唱データを使用者の歌唱に転写することで、使用者の歌唱を補正する機能を有するアプリケーションである。

従来のVoiceCoder(通称Vocoder)と呼ばれる音声分析再合成の技術は、実時間で動作を行うが出力される音声は肉声にはとても聞こえない、いわばロボットボイスのようなものであった。高品質な音声合成では、Text-To-Speech (TTS)のように、文章・単語ごとあるいは母音子音ごとに用意された素片を繋げて再生する方法が一般的であった。

一方、入力された音声そのものの声質を変化させる技術の用途として、カラオケに代表されるようなエンターテインメント産業が挙げられる。このような応用では、使用者が手軽に遊べるもの、楽しめるものとして導入されるため、消費者が歌いながら声質を変化させるリアルタイム性が求められる。また、自身が歌う歌声という特性上、声質・音質が悪く、ロボットボイスのようであると使用者は不快であろう。そのため、肉声と何ら変わりのない十分な品質で、実時間で動作するシステムが必要とされる。

申請者は入力された歌唱に事前に分析した他者の歌唱データを転写することにより、高い品質を保持したまま歌唱力の補正を行うアプリケーションを提案する。本アプリケーションを実現するために、高品質Vocoderにより実現された音声モーフィングという技術を活用する予定である。

8．採択理由

Vocoder方式の音声分析合成技術を用いて、自分の歌声を他人の声質で表現し、歌唱支援を行うことでカラオケをもっと楽しくしようとする提案で非常に面白いと思う。開発者が属している研究室は、音情報処理研究室でそのスタッフとして、Vocoder技術に基づくStraightで実績のある先生がおられるのでその指導は受けやすいだろう。

また、今回の提案はStraightを踏まえつつ、そのリアルタイム化に自ら挑んだ点で開発者の独自性も高く、評価したい。ぜひ、品質の高い高速のシステムを実現するように頑張って欲しい。

また、自分の声質が少しずつ他人のものに変えられていったとき、果たして違和感を感じないものか、どこまでを自分の声と認識するのか、認知や心理の問題としてもこのプロジェクトは興味深い。
非常に楽しみなプロジェクトの一つであり、その成果を大いに期待している。