IPA


開発成果一覧へ

 



2006年度上期 未踏ソフトウェア創造事業  採択案件評価書

 


1.担当PM

   河野 恭之  (奈良先端科学技術大学院大学 情報科学研究科 助教授)


2.採択者氏名

開発代表者

戸田 智基 (奈良先端科学技術大学院大学 情報科学研究科 助手)

共同開発者

大谷 大和 (奈良先端科学技術大学院大学 情報科学研究科 博士前期課程2年)

関本 英彦 (奈良先端科学技術大学院大学 情報科学研究科 博士前期課程2年)

中村 圭吾 (奈良先端科学技術大学院大学 情報科学研究科 博士前期課程2年)


3.プロジェクト管理組織


   テクノロジーシードインキュベーション株式会社


4.委託金支払額


  8,250,652


5.テーマ名


 固有声変換法に基づく声質変換ソフトウェアの開発

 


6.関連Webサイト


 戸田:http://spalab.naist.jp/~tomoki/index_j.html
 研究室:http://spalab.naist.jp/


7.テーマ概要


 言語の違いは音声コミュニケーションを大幅に妨げる要因である。
自動音声翻訳や様々な言語のテキスト音声合成システムが存在する今、仮に、言語を問わず任意の音声の声質をユーザーのものへと変換できれば、ユーザーの音声発声能力は大幅に向上する。
これは声質変換技術の応用例の一つである。この他にも、声帯を失った発声障害者による人工的な音声を、元の自分のような声質もしくは好みの声質へと変換できれば、失われた音声発声能力は回復する。現状の声質変換技術では、入力話者と出力話者による50文程度の同一内容発声データ対から変換モデルを自動学習する。
一度学習すれば、入力話者の声質は言語や発声内容によらず出力話者の声質へと変換可能となる。重大な欠点は、入出力話者各々に対して学習データが必要となる事である。先の例のようにそのようなデータが収録不可能な場合は、この技術は使用できない。この問題に対して、我々は固有声変換法という技術を採用する事で解決を試みる。本プロジェクトでは、固有声変換法に基づく声質変換用及び変換モデル学習用ソフトウェアの開発を行う。


8.採択理由


 TTSから所望の人の声で合成音声が出力できる.併せて権利関係フリーの音声DB作成のためにナレーター発声を収録する.アプリケーションは,声帯を失った人の発生機能の回復(=発声能力の増強),自分の声・他者の声での合成音声出力など幅広い.基盤技術(ライブラリ)の開発だけでなく,UI面での作り込み(PM分野に関連したデモアプリを少なくとも一つ作ること)を条件として採択する.PM担当の他Pjとのコラボレーションによる開発を強く推奨する.

 





9.開発目標


下記のソフトウェア及びソフトウェア動作のための音声データベースの構築を目標とする.

(1)  声質変換・及び固有声変換基本プログラム:下記(3)(4)アプリケーションをはじめとする声質変換・固有声変換のための分析・変換・合成・学習処理を行う基盤プログラム・ライブラリ群である.

(2)  固有声変換処理用音声データベース:下記(3)(4)アプリケーションをはじめとする固有声変換ソフトウェアが参照するフリーの音声データベースである.アニメキャラクター風の発話スタイルの音声生成も想定し,通常音声と「アニメ声」の二種類の発話スタイルを包含する.

(3) 多対1固有声変換ソフトウェア:誰もがすぐに使えるボイスチェンジャー,すなわち任意のユーザの発声を(2)のデータベースに収録された37のキャラクターの声での発声に変換するツールである.

(4)  1対多固有声変換ソフトウェア:自分専用のボイスチェンジャー,すなわち「女性っぽい」「若々しい」などの直感的な属性から構成されるスライダーを操作することにより,特定ユーザの声質を自在に変換するツールである.

 


10.進捗概要


前項の(1)(2)を並行して実施して基盤を固め,その後に(3)(4)のツール・アプリケーションを作成するという当初計画にほぼ沿って推移した.

当初計画からの主な変更点は下記である.

・応用のシフト:当初のアプリケーションとして発声障害者補助(声を失った人に仮想的な発声能力を復活させる)を想定していたが,より大きなマーケットが想定される「アニメ声」への変換へと初期目標を変更し,そのためのデータベース作成,ツールUIの設計を行った.

・音声変換属性の設定:前項(4)の実現に際して,当初計画では固有ベクトル重みによる声質変換を予定していたが,一般ユーザには直感的な操作とならないため「性別」「年齢」「声のかすれ・張り・太さ」などの声質パラメータと参考話者の特徴量ベクトルとの対応付けを行っておくことによって,より直感性の高い声質変換ツールを実現した.

 


11.成果


○成果1:声質変換・及び固有声変換基本プログラム

下記成果3,4のアプリケーションをはじめとする声質変換・固有声変換のための分析・変換・合成・学習処理を行う基盤プログラム・ライブラリ群である.

○成果2:固有声変換処理用音声データベース:

下記成果3,4のアプリケーションをはじめとする固有声変換ソフトウェアが参照するフリーの音声データベースである.アニメキャラクター風の発話スタイルの音声生成も想定し,通常音声と「アニメ声」の二種類の発話スタイルの発話それぞれ50文ずつ,37人分の発声が収録されている.

○成果3:多対1固有声変換ソフトウェア

2.1.1に示すように,任意のユーザの発声を成果2のデータベースに収録された37のキャラクターの声での発声に変換するツールである.

2.1.1 多対1固有声変換ソフトウェア

これにより多くの事前発声や学習を必要とせず,誰もがすぐに使えるボイスチェンジャーが実現された.

○成果41対多固有声変換ソフトウェア

2.1.2に示すように「女性っぽい」「若々しい」など6種類の直感的な属性から構成されるスライダーを操作することにより,特定ユーザの声質を自在に変換するツールである.Windows上で機能するGUIを図2.1.3に示す.

2.1.2 1対多固有声変換ソフトウェア

2.1.3 1対多固有声変換ソフトウェアのUI

これによりいわゆる自分専用のボイスチェンジャーが実現されたことになる.

なお,本開発成果の利用条件は下記である.

○音声データベースはフリーで使用可能であるが悪用は不可とする.

○固有声変換技術は,奈良先端科学技術大学院大学及び旭化成株式会社が共同で出願中である声質変換技術に関する特許の一部に含まれる.本ソフトウェアを商用目的で利用する際には上記特許の適用範囲となる.その他の使用目的では完全フリーである.


12.プロジェクト評価


本プロジェクトの基盤である固有声変換技術は開発者が元々もっていたオリジナリティの高い技術である.本プロジェクトの最大の意義は研究レベルでは評価されていた技術を,一般のユーザや開発者が利用できるツール及びツールキットとしてリファクタリングしたことにより,アミューズメント,防犯,障害者補助など種々の応用に今後適用可能な基盤ソフトウェアをフリーで提供したことである.研究業界的な仕様となっていた声質制御パラメータを,より直感的で一般の使用に適した声質表現語に変更するなどの自ら殻を破る努力もありよい成果に結びついた.

 


13.今後の課題


公開された開発成果(ツール及びデータベース)利用した種々のアプリケーションが開発されることを期待すると共に,開発者自身が普及のための提案を継続することを期待したい.開発期間中に変換音声の品質もかなりの向上を見せたが,「不満のない」品質までには未だ達していない.更なる性能改善を加える必要があるだろう.

 




  ページトップへ   

 

 

 


  Copyright(c) Information-technology Promotion Agency, Japan. All rights reserved 2004