IPA


開発成果一覧へ

 



2005年度下期 未踏ソフトウェア創造事業  採択案件評価書


 




1.担当PM

     原田 康徳 (NTTコミュニケーション科学基礎研究所 主任研究員)




2.採択者氏名

開発代表者

 布山 毅   (フリーランス)

共同開発者

 遠藤 孝則 (情報科学芸術大学院大学 助手)




3.プロジェクト管理組織


  有限会社トリガーデバイス




4.委託金支払額


 3,500,000




5.テーマ名


  アニメーテッド・サウンド 画像認識によるサウンド生成プログラム




6.関連Webサイト


  http://www.taruto.com/animationws/




7.テーマ概要


 このアプリケーションは、紙に描いた線や面の情報をもとに、アニメーションの映像と音をほぼ同時に、しかも簡単に遊びながら作成できるツールである。2003年から私がプログラマーの遠藤孝則らとともに開発をすすめてきた、子ども向けのアニメーション制作システムがベースにあり、そのシステムをさらに進化発展させる形で研究開発を行う。ベースとなるプログラムは、パラパラ漫画の要領で描かれた数枚の絵を撮影し、すぐにアニメーションとして再生できるというシンプルな画像処理プログラムである。「動かないはずのものが、生き物のように動きだす!」という、アニメーションの原初的な魅力を、ユーザが直感的に理解できるシステムを目指した。そのシステムのシンプルさを残しつつ、子どもたちが自分のつくったアニメーションに簡単に音楽や効果音をつけられるようにしたい、ということが本研究開発の発端である。実験アニメーションの世界では、フィルムの光学式サウンドトラックに直接ペンで線を書き込み、音を合成するという技法がある。その技法をデジタル技術によって発展させ、音と映像の融合した新しいアニメーション表現を開拓したいとも考えている。具体的な方法としては、アニメーションを描く紙の端にサウンドトラックのスペースを設け、そこにペンや筆で描かれた線や面の情報をもとに、画像認識による音の自動生成を行うといった方法を考えている。誰でもすぐに、操作方法を学習する時間すらほとんど無しで、自分のつくったアニメーションに遊び感覚で自由に音をつけてゆけるようなシステムを目指したい。




8.採択理由


 開発者らの子ども向けアニメーション制作システムの音の部分を拡張する。 

 すでに,絵と動きに関する部分は「誰にでも簡単に」が実現できている.この簡単さをどこまで生かして,音の領域に拡張することができるかは,開発者らのこだわりと技術力にかかっていると思う。
 提案された2つの方法はどれも面白く,技術的にも到達可能な範囲にあると思われる.さらに,それを本物にするための子どもたちへのワークショップとそのフィードバックも非常に楽しみである。

 

 




9.開発目標


 本プロジェクトの研究開発の発端にある動機は、アニメーション作家である私がかねてより抱いていた、「アニメーションは見るだけでなく、作ることこそ面白い!」という実感である。それを広く体験してもらいたいということが本プロジェクトの趣旨である。

 一般的に「アニメーション」といえば、テレビや映画館で「見る」対象であり、「作る」対象にはなかなかなりにくい。しかしアニメーションというのは、それを作る対象として捉えると、実にさまざまな教育的可能性を秘めている。例えば、驚きや発見を誘発しやすいということや、表現の自由度が非常に高く創意工夫しやすいこと、また動きを分析的にとらえるために観察力が養われる、といったことが挙げられよう。ゆえに、とりわけ子どもたちに広くアニメーションを作る経験をしてもらうことは意義のあることだと思われるが、これまでそうしたアニメーションを作る世界への導入は、一般に開かれたものにはなっていなかった。

そうした状況を変えてゆくために、私は2003年より、全国各地の図書館や美術館、公民館などでアニメーション制作体験のワークショップを実施してきた。ワークショップとはいえ、限られた人数を対象とするのではなく、不特定多数の観客に楽しんでもらうために、公園の遊具のように、好きなときに自由に遊べるような装置を考案した。その代表的な二つの装置『アニマカート』と『コマドリアニメテーブル』が、本プロジェクトで開発したシステムのベースとなっている。それぞれの装置の概要は以下の通り。

@アニマカート

体験者がパラパラ漫画の要領で数枚の紙に描いたコマを床にならべ、『アニマカート』でその上をなぞる。すると各コマが自動撮影され、すぐにアニメーション再生して見ることができる。

なお、自動撮影の機構は、タイヤの回転量をハードウェア的に読み取って実行するようになっている。

 

Aコマドリアニメテーブル

『コマドリアニメテーブル』は、テーブルの上に粘土や砂、手描きの絵などをコマ撮りして即座にアニメーション再生ができるテーブル。赤のボタンで撮影、緑のボタンで再生、青のボタンでリセット。以上3つのボタン操作だけでアニメーションを手軽に制作することができる。基本プログラムは『アニマカート』とほぼ同じもの。

本プロジェクトは、上記2つの既存のシステムに、効果音を簡単につけられる拡張機能を実装することを目指した。いわば映画で言う「サイレント」仕様だったシステムを、「トーキー」仕様にしようというわけである。映像に音がつくことで、表現の可能性や作品の完成度が高まり、より参加者の制作意欲を高めることができると考えた。ただし音づけ機能を追加しても、インターフェイスと操作手順はあくまでもシンプルな形のままにすることを重視して開発を行った。




10.進捗概要


『アニマカート』や『コマドリアニメテーブル』で実現した「誰でも簡単にアニメーションを制作できる」という機能に、さらに音を簡単につけられる機能を追加することを目標とした。アニメーションの知識も音づくりの知識も全く持たない体験者でも、遊びながら簡単に音のついたアニメーション作品を制作できるシステムを目指した。

 

 『アニマカート』の発展形として考案する『音アニマカート』は、以下の操作手順でアニメーションを制作するものとした。

 

 

 

 

 

 

 

 

 『コマドリアニメテーブル』の発展形として考案する『コマドリ音ピース』は、以下の操作手順でアニメーションを制作するものとした。

 

上記の作業の流れを実現するために、二つのシステムは以下の仕様で開発が行われた。

 

『音アニマカート』

撮影する動画のコマのすぐ隣に、音シートと呼ばれる紙を置いて一緒に撮影し、アニメーション再生時にその音シートに押された効果音のマーク(音マーク)の情報を元に効果音を鳴らす。

十分な解像度を得るため、カメラは2台使用する。1台は動画のコマを撮影し、もう1台は音シートを解析するために使用する。

撮影は、以前の『アニマカート』とは異なり、ソフトウェア的に自動的に行われる。コマ撮影用のカメラに映った映像の範囲内に白い紙が正しい配置で認識されると、自動的に撮影が行われる。

写真 2台のカメラを備えた『音アニマカート』筐体

 

・音マークは、その形状を画像認識することで識別される。最終的には50種類程度の音マークを識別できるようにした。

図 音マークの一覧

音声にエフェクトを加える機能を持つ、特殊な音マークを用意した。エフェクトのマークは、通常の音マークと組み合わせて使用する。エフェクトの種類は、「男声(ピッチが低くなる)」「女声(ピッチが高くなる)」「ロボットボイス(機械のような声になる)」などがある。例えば、ネコの音マークのすぐ近くに、「ロボットボイス」のエフェクトマークをスタンプで押すと、ネコの鳴き声が機械的な金属音に変わる。エフェクトは近いマークにのみ影響を及ぼすように設定できるので、例えば右写真の場合は、ネコの音にのみエフェクトがかかる。

 

『コマドリ音ピース』

基本のプログラムは『音アニマカート』とほぼ同じだが、以下のような相違点がある。

-撮影用のカメラが1台のみ。

-自動撮影機能を持たず、ユーザがコマドリボタンを押した時  

に撮影が行われる。

-エフェクトに「ミュート」がある。常に音が鳴り続ける状態を避  

けるため、ミュートエフェクトで必要に応じて音マークを黙ら

せることができる。

 




11.成果


まず、『音アニマカート』と『コマドリ音ピース』システムの処理の流れを概略図で示す。

図 『音アニマカート』システム処理の流れ

図 『コマドリ音ピース』システム処理の流れ

 

 

 

 

4.1 アニメーション生成

「誰でも簡単にアニメーションを作成できる」という本プロジェクトの目標を実現する上で、アニメーション再生時にレンダリングなどの待ち時間がかかると手軽さが失われてしまう。そこで、アニメーションを撮影している最中にキャプチャーした画像をすべてメモリに保存し、再生時に連続して再生する簡易的なアニメーションの表示方法を採用した。

一方、制作されたアニメーションをアーカイヴ化するという観点から、撮影された画像はメモリに保存するだけでなく、ハードディスクにも残す仕様とした。フォーマットは連番のJPEGファイルで、必要に応じて別アプリケーションによって動画ファイルを容易に作ることもできる。

 

4.2 音マークの認識

音マークの特徴的な形状を識別するということが、本プロジェクトの骨子の1つである。

コマの背景の多くは明度の明るい白であることから、シンボルを明度の暗い色で記述して単純に2値化をしてマーク領域を特定することにした。その後にマークの領域を詳細に分析する。

図 音マークの領域を特定した様子

 

それからそれぞれの領域の輪郭を抽出し、その輪郭から形状の分析を行った。形状の認識には複素自己回帰モデルを用いたものを実装した。

図 輪郭から音マークの特徴点を得る様子

 

得られた46個の特徴点を用いて複素Parcor係数を求め、音マークの特徴ベクトルとした。係数のそれぞれの次数でのテンプレートとの誤差を、二乗誤差を用いて求め、もっとも誤差の少ないものを認識結果とした。なお複素自己回帰モデルの実装にあたっては以下の論文を参考にした。

 

柔らかな情報処理のための統計的手法の応用に関する研究 栗田 多喜夫

http://www.neurosci.aist.go.jp/~kurita/thesis/thesis/node99.html

 

4.3 コマの自動撮影・自動切り出し機能

カメラの入力画像内にアニメーションの紙の領域を検出して、自動的にその範囲内を抽出し、周辺部分から切り取る形で撮影することができる。

コマの紙が明度の明るい白ベースのものであることから、背景を明度の暗いものに限定することによって、コマの紙の領域を2値化することができる。2値化した領域の輪郭をもとめ、さらにそれらの4つの頂点を求めた。

図 入力画像を二値化してコマの領域を推定する

 

図 領域の輪郭線の頂点を求める

 

それぞれの頂点の対角線と辺の長さから、コマであるかそうでないかを判断する。音アニマカートの移動中など複数のコマがカメラに写っているときは、上記の対角線や辺の長さの条件によってコマと判断しない。

 

輪郭線から頂点を検出するアルゴリズムは[AR ToolKit]のソースを参考にした。

AR ToolKit

http://www.hitl.washington.edu/artoolkit/

 




12.プロジェクト評価


・操作方法の簡便さ

本システムにおいては、マウスやキーボードすら使用しないため、PC操作に不慣れな層のユーザでも、操作方法を簡単に学習できる。

既存の製品では、セルシス社のクレイタウンというコマ撮りアニメーション制作ソフトに、簡易的に効果音をつけられる機能があるが、それもやはり最低限のPCの操作方法を理解したユーザでなければ使うことができない。本プロジェクトのシステムでは、ユーザにPCの存在をほとんど意識させることなく、制作作業に集中してもらうことができる。

ユーザテストとして、開発したシステムを小学校4〜6年生の小学生5名に実際に体験してもらったところ、23分の説明をしただけで、全員がすぐに作業概要を理解し、次々作品を作りはじめた。

写真 大垣市情報工房で行ったユーザテストの様子

・身体的な操作プロセス

 作業工程全般において、「紙を触る」「ペンで絵を描く」「紙を並べる」「スタンプを押す」等、ユーザがなるべく身体的・触覚的に関われるようにデザインされている。身体的な関わり方を要求することにより、とかく頭だけで思考しがちになるPC操作のみによる体験に比べて、より創造的な状態を呼び起こしやすいと考えられる。

 

技術的なレベルと洗練されたアイデアの調和がとれたよいシステムとなった。今回開発されたシステムの応用の範囲は広いので、開発者の今後のアイデアにも期待する。

 




13.今後の課題


現状での問題点は、設置環境における照明の影響によって、画像認識の精度にバラつきが生じるということである。筐体に電球を設置し、なるべく他の照明からの影響を受けないように工夫しているが、それでもやはり強い外光が差すような状況下では安定した動作をさせるのが難しい。その点については改善方法を検討しなくてはならない。

現状の音のエフェクトは、リアルタイムで処理できておらず、事前に加工した音データを再生するという方法をとっている。従って2種類以上のエフェクトを複合的にかけるといった処理には対応できない。将来的には、さまざまな音のエフェクトをリアルタイム処理できるようにしたいと考えている。

『コマドリ音ピース』に関しては、当初予定していなかったアウトプットであり、まだその仕様も含めて詰めきれていない部分が多い。例えばミュート機能などは、改善の余地があると考えている。引き続き開発を進めていきたい。

 本プロジェクトの開発成果の普及に関しては、主にワークショップの場で体験してもらう形を想定している。実際に子どもたちにこのシステムに触れてもらって要望を聞きながら、音マークの種類を増やすなど、少しずつバージョンアップしてゆきたいと考えている。

 



  ページトップへ   

 

 




  Copyright(c) Information-technology Promotion Agency, Japan. All rights reserved 2004