IPA


IPAトップ





平成15年度未踏ソフトウェア創造事業(未踏ユース)  採択案件評価書


 




1.採択者氏名


代表者

太田 宏之

共同開発者

なし



2.担当プロジェクト管理組織


 (株)メディアフロント



3.委託支払金額


 3,000,000円



4.テーマ名


 エンターテイメントロボットのための行動進化ソフトウェアの開発



.関連Webサイトへのリンク


 http://www.jp.aibo.com/

 http://openr.aibo.com/openr/jpn/index.php4(要会員登録)



6.テーマ概要


 本プロジェクトは,見ていて飽きないエンターテイメントロボットを目指し,エンターテイメントロボットが既に獲得した行動を変化させて自ら新しい行動を生成するための行動進化ソフトウェアを開発するものである.

 人間や動物は,自身の物理的条件・環境における試行によって,あるいは他の個体の行動を観察することによって,新たな行動を獲得することができる.そのためには行動の軌跡を記憶でき,また行動を起こす際には,知覚できる現在の状態に対して,ステレオタイプに反応するだけではなく,過去の履歴を活用し,次の状態を予測して行動を生成することが求められる.さらに,未知の状況 (未知のセンサー入力・関節角度等) に対しては,固定的な動作パターンを再生したり停止したりするのでははなく,学習済みの複数の行動パターンを組合せて対応できることが必要である.

 しかし,既存のエンターテイメントロボットもしくは自律型ロボットは,新しいことを学習することについての可能性が開かれていない.そのため,適度な頑健性を持ちながら,可塑性を持った行動学習システムが必要である.感覚的に言えば,猿まねが出来ることと猿まねが少しづつ変化することが出来れば良い.必要なのは,例示した行動パターン (軌跡) の学習とモジュール化を自律的に行なうこと,そして未知入力に対してモジュールを連動させて適当な出力を得ることである.そのため次のような要件を持った行動学習システムを作る.

 ・時系列データの軌道を学習し,軌道の一部から続きを予測できること
 ・軌道間の相関に応じて各軌道の特徴に対応したモジュール化が行なわれること
 ・切り出されたモジュール間においても,各モジュールに対応する軌道が同時生起する相関を学習し,一部データが欠落した場合でも相互に予測を補完し合うこと

 これらの要件により,提示された軌道データ (主にロボットのセンサー情報) を真似ることができ,かつ一部が欠落したりノイズが乗った軌道データが入ってきた場合でも,過去に学習した軌道に基づいてある程度続きの軌道を予測が可能となる.

 以上のような認知・行動システムを実装するため,時系列パターンを学習する再帰型の自己組織化マップアルゴリズムを開発する.そして,AIBOを駆動するための開発プラットホームであるOPEN-R上において,そのアルゴリズムを用いた行動学習システムを構築する.AIBOには既存の歩行・ダンスパターンデータを例示してこれを学習させる.そして過去に例示したことのあるパターンと軌道が一部重なった未知のパターンを次々と入力していき,見ていて飽きない行動を生成するかどうかを検証する.



7.採択理由


 紋切り型にしか育たないロボットから脱皮し,真に多様で,かつ生き物のように適応的に学習進化するロボットができれば,もっと感情移入しやすいペットロボットになる.実にわかりやすい.この提案は実用性へのステップはともかく,いわば破壊による学習という発想が面白いし,技術的な裏付けもしっかりしている.プレゼンを聞いてますますその感を強くした.当面AIBOに的を絞って開発を進めることになるが,枠組自体はどんなロボットにも使える.ロボット大国である日本じゃないと出てこない発想かもしれないというところも買いである.



 
8.成果概要(中間報告時)
 

 
 PC上でAIBOを歩行させるコントローラーGUIからAIBOを動かし,リアルタイムで関節角度データをMATLABに取り込み保存するというシステムを組み,このシステムで取得されたデータを元に,AIBOの関節を動かせるようなプログラムを作成した.また,並列化した自己組織化マップのアルゴリズムの開発を行なった.

 並列化した自己組織化マップのアルゴリズムの学習効率向上と,トレーニングキットを用いた新しいトレーニング (=予想外の入力) を行ない,その過程の挙動を楽しめるようなシステムの構築は今後の課題に持ち越す.しかし,その前段での理論整備を行なった.

 また,進化に関する見せ方であるが,試行の中から偶発的な動作を期待するプレゼンテーション方法から,よりユーザーにわかりやすく見せるため,ユーザーによる訓練の過程における偶発的な動作を期待するプレゼンテーション方法に変更する.

 
9.PMコメント(中間報告時)
 

 
 プロジェクトたけなわの時期に会社を辞めて,大学に学生として入り直すという大きなイベント (引越しを含む) があったため,開発が相当の期間停滞してしまった.しかし,大学では思索の時間が取れ,このプロジェクトの理論面・設計面の補強を行なえたようである.複数のRecurrent型の自己組織化マップを並列に接続することの意義を記録した資料を送ってもらった.所属した神戸大学郡司研究室らしい,よく抽象的に整理された資料であった.このように理論武装しておけばそう簡単には転ばないだろう.

 そろそろ大学での生活も落ち着くだろうから,遅延している自己組織化マップのアルゴリズム開発に拍車をかけてほしい.それができれば,テスト的なAIBOの駆動実験までは終了しているので,実機プログラム開発は一挙に進行するであろう.

 このプロジェクトは理論武装や実装は大変なのだが,結局,成果の評価はシロウト (AIBO家?,PMを含む) の直観にゆだねられてしまうという恐いところがある.つまり,言い訳があまりきかない.このプレッシャに耐えられるプレゼンテーションのやり方を考えることも重要だ.


10.成果概要(終了時)


 以下のような開発を行なった.

(1) アルゴリズム開発

 時系列パターンを学習する再帰型の自己組織化マップ (Self-Organizing Map=SOM) 及び再帰型自己組織化マップを改変したアルゴリズムの開発を行なった.自己組織化マップは次の特徴を持ったニューラルネットワークである.

 ・教師無し競合型のニューラルネットワークである.
 ・入力層と出力層の2層構造を持つ.
 ・高次元の入力データを低次元の出力層に対して位相マッピングする.
 ・汎化・分類を行なう.

 それに加えて再帰型自己組織化マップは,次の特徴を持ったニューラルネットワークである.

 ・時系列データに対応する.
 ・1ステップ前の競合層の活性度を状態として持ち時系列データの分類が可能である.

 本プロジェクトでは,自己組織化マップ及び再帰型自己組織化マップを拡張したアルゴリズムを開発した.特徴は,以下の通りである.

 ・同構造の自己組織化マップを複数並列に置き相互に1ステップ前の活性度を参照し,入力軌道パターン間の相関関係を学習できる.
 ・予想出力が行えるようになっている.

 太田 図1が開発した並列再帰型自己組織化マップの概念図を示す.

 

開発した並列再帰型自己組織化マップ図

 

太田 図1 開発した並列再帰型自己組織化マップ

 

(2) 実証実験用プログラムの設計および開発

 AIBOを駆動するための開発プラットホームであるOPEN-R及びTekkotsu Framework上において,上記アルゴリズムを用いた行動学習システムを構築した.太田 図2に開発・実行環境を示す.

開発及び実行環境図

 

太田 図2 開発及び実行環境

 

(3) 実証実験

 センサーと関節角度の軌道パターン (時系列データ) を入力し,並列再帰型自己組織化マップをトレーニングした.今回は,足関節,距離センサー,角センサーを対象とした.さらに,AIBOのセンサーデータを並列再帰型自己組織化マップに入力し,関節角度の軌道データを予測出力させ,AIBOの関節角度をセットするのものとした.

 実験は,上記条件において,次の手順で行った.

 [1]「お座り」の状態を基本とし,「お座り」の状態の時に手を近づける (距離センサーの値が小さい) と「お手」 (左前脚を上げる) をし,「お座り」の状態の時に頭を撫でる (角センサがONになる) と「立ち」の状態に移行し,「立ち」の状態の時に手を近づけると「お座り」の状態に移行するように学習させた.実際にAIBOを稼動させたところ,このとおりの動作をすることが確認できた.

 [2] 1に続き,手を近づけると「お手」をする軌道パターンの学習の際,「お手」に関係する左前脚と距離センサー以外の軌道パターンを左前脚と距離センサーに対して無相関なデータを学習させた.実際にAIBOを稼動させたところ,「立ち」の状態の際に,手を近づけた際,立ったまま「お手」をしたり,「お座り」に移行したりすることが確認された.

 太田 図3はこの実験に含まれた状態遷移を表す.

 

 AIBOの訓練パターンと発生したエラーパターン図

 

太田 図3  AIBOの訓練パターンと発生したエラーパターン

 

 「立ち」状態の時に手を出すと,本来ならば「お座り」の状態に戻るところが,「立ちながらお手」という予想外の行動が生まれた.これは,次のように説明ができる.最初の学習においては,「お手」は全ての関節角度と全てのセンサーの軌道パターンに相関があることから,全ての並列再帰型自己組織化マップ間に対応関係が作られた.これは「お手」モジュールが全ての並列再帰型自己組織化マップにまたがっている事を意味する.しかし,次の学習で,距離センサーと右前脚のみの軌道パターンの相関が学習されたことで,「お手」モジュールは距離センサーと左前脚に対応する並列再帰型自己組織化マップのみに限定された.つまり,動的にモジュールの範囲が変わったと言える (太田 図4).あるいは,各並列再帰型自己組織化マップを1モジュールとみなすと,モジュール間の対応関係が動的に変化したとも言える.このようにモジュール構成の動的な変化をエンターテイメントロボットに導入した場合,予想外の行動を生成する可能性を持つことができ,より新しいエンターテイメント性をもたらすことができるだろう.

 

「立ちながらお手」が発生した理由の図

 

太田 図4 「立ちながらお手」が発生した理由




11.PM評価とコメント(終了時)


 進捗の遅れからAIBOで実際のデモができるのだろうかと心配されたプロジェクトだったが,単純とはいえ初期の目標を確認できるデモができるところまで進んだのでほっとしている.

 並列再帰型自己組織化マップでの学習は半端ではない時間がかかる.でも1〜2日程度計算機を回しておくのだったら,昨今のPCの普及状況を見るとそうたいした問題ではないのかもしれない.それよりも,軌道パターンの長さを変える度にパラメータチューニングが必要となってしまうとか,データの手作業での加工も必要とかいうところに,問題がある.シロウトが簡単に楽しめるようにするには要改善だ.そのほかにも軌道が重なった場合にうまく学習できないといった相当難しい問題も見えている.

 また,この開発を通じて,システム構成をリファクタリングする必要も見つかったようである.しかし,最初のプロトタイプとしての意味は十分にあった.アーキテクチャもいろいろ改善点が見つかっているようだ.どれも「自然で可愛いエンターテインメントロボット」を実現するのに欠かせないように見える.奥の深い問題にぶち当たったみたいだ.しかし,太田君はむしろこの研究でしばらくはやっていける.そして,15年後にこれで大ブレークできると読んでいる.なかなかしたたかなものだ.

 このプロジェクトを見ていて,AIBOの制御というのは結構難しいということがよくわかった.スムーズな動きを学習で得るには学習の負荷が非常に大きいこともわかった.しかし,どこかでなにか妥協すると,意外と簡単に「エンターテインメントロボット」に必要な「資質」が得られるのではないかという気もする.現状では,とにかくフルセットで原理追求をしている段階だと言えよう.

 折も折,ソニーのAIBOが若干不振で,販売チャネルの縮小がニュースになっていた.これが「飽きる」ということに原因があるとすると,太田君のような仕事は重要な意味合いをもつことになる.ただ,現状では速効薬にならないことも明らかである.ソニーとなんらかの接触を始めてもいいのかどうか判断に迷うところだ.




  ページトップへ   






  Copyright(c) Information-technology Promotion Agency, Japan. All rights reserved 2004