|

本プロジェクトで開発したシステムの各機能について以下の図を用いて説明する。

まず、システムはユーザインタフェース機能を通
じてユーザ入力を受け取る。ユーザ入力は映像検索機能に渡され、予め、記録されていた映像データ及びそれを説明するタグデータ(これは自動的に生成された
番組表データもしくは手入力されたデータ)を検索し、検索結果を作成する。
関連キーワード抽出機能はこの検索結果より関連キーワードを抽出する。ユーザインタフェース機能は、検索された映像情報ならびに抽出された関連キーワー
ドをユーザに提示する。ユーザは表示された映像を閲覧し、その番組が気に入れば視聴するし、他の番組を閲覧したい場合には更に入力を行う。
以下、上記説明中の映像検索機能、関連キーワード抽出機能、及びユーザインタフェース機能について詳細を記述する。
1.データ収集機能
データ収集機能は、TV映像データをHD上の映像ファイルに変換するとともに、インターネット上から番組表データを取得。対応する映像データ及び番組表
データを一つのディレクトリに保存する機能である。
映像データのフォーマットとしては、Quicktimeが対応しているものであれば読み込むことができる。具体的にはMPEG-1,-2-4及び.
mov形式である。
番組表データとして通常のiEPGデータに加えて番組の説明文章をWebページから抽出し、コメントとして記録する。これはiEPGデータだけでは映像
コンテンツに関する情報量が少なく、後述する映像検索機能において有効な検索が行えないために必要となる処理である。
ディレクトリの構造は、以下の3階層としており、最下部の階層に映像データと番組表データがまとめて保存される。
TV局 − 日付(年月日) − 番組開始時間
2.映像検索機能
映像検索機能はハードディスクに記録された映像コンテンツ及びそれに関連づけられたタグデータ(番組表データもしくは手入力したデータ)を対象として、
任意のキーワード、もしくは映像コンテンツを用いて検索を行い、順位付けして結果を返す機能である。
タグデータは以下の項目からなる。
1) 放送局もしくはカテゴリー名
2) 放送日
3) 放送時間
4) 映像の長さ
5) 題名
6) コメント(自由記述文)
本機能では検索キーとなるタグデータ、もしくは単語データと検索対象となるタグデータの関連性を以下に示す2種類の方法で評価、その結果を統合して関連
性の高いものから順位付けを行う。
2.1 一致単語数評価
前述したタグデータのうち5)、6)は形態素解析され、名詞及び未知語だけが検索の対象となる。1)項の内容は、設定された単位で形態素解析されず、検
索対象となる。(すなわち「NHK総合」を「NHK」と「総合」に分割しない)検索キーとなるタグデータもしくは単語データと一致する単語を有しているタ
グデータには、一致する単語数に応じて評価値を与える。
2.2 時間類似度評価
前述したタグデータのうち、2)3)4)については時間に関するデータであり、前項で記述した単語に関する一致評価とは異なる評価方法を採る必要があ
る。こうした時間データの一致度を評価する方法として、例えば、4)映像の長さ(時間)について、いくつかの閾値を設定し、同じ区間に属する長さを持つ映
像には評価値を与えるといった処理が考えられる。
しかしながら、TV番組はその時々によって長さが微妙に伸び縮みする性質を有する。例えば、我々が一時間番組と認識している番組であっても前の時間の
55分からスタートし、終わりにニュースがはさまれるため50分で終了するといったことがありえる。そのため、仮に1時間(=60分)を閾値として区間を
設定した場合、55分の番組が1時間の番組を異なったカテゴリーに分類されることになるがこれはユーザの直感とは適合しない。
そのため、以下のような類似度評価を行うこととした。
1. 評価対象となる二つの時間のうち長い方を基準値として選択する。
2.
基準値として選択されなかった映像の長さが、選択された基準値から一定の割合(映像の長さであれば75%)以上の長さであれば、一致とみなし評価値を与え
る。
実例を用いて説明する。例えば、46分の番組と60分の番組とがあった場合、より長いのは60分の番組である。その75%は45分であるから、選択され
なかった46分の番組はこれ以上の長さを有しており、一致とみなす。仮に比較が30分の番組と60分の番組であった場合には、閾値となる45分以下の長さ
であるため、一致とはみなさない。
同様の評価方法は、放送された日時についても用いられる。日常我々は直近の日時については細かい単位(今日、昨日、今週、、)で考えるが、過去に遡れば
遡るほど大まかな単位でくくる傾向が有る(今年、去年、80年代、、)前述した方式では、過去の番組であればあるほど、一致としてみなす幅が大きくなるの
で、こうした日常の間隔と合致する評価が可能になったと考えられる。
3.関連キーワード抽出機能
2.項の検索機能から返された結果より関連キーワードを抽出する機能である。具体的には以下の処理を行う。
★ 英単語及び日本語の単語、記号ごとに設定された「対象外ワード」を形態素解析結果から除外し、
各番組情報ごとに有する単語のリストを作成
しておく。
★ 画面に表示されている映像情報を対象として、単語の出現頻度を計算、一定の閾値以上の単語リストを作成する。
★ 項で作成した単語リストを乱数によってシャッフルし、設定された個数の単語を抽出する。
この3)は中間報告時のフィードバックを反映して追加した処理である。それ以前は単に単語の出現頻度のみを用いて関連キーワード抽出を行っていたが、そ
れではよく使われる単語だけが抽出されてしまい、映像の閲覧も自然とワンパターンに陥ってしまう。
本システムの目的は「普段見ようとも思わない番組の思わぬ楽しさを発見する」ことにあると考えればこうした傾向は好ましくない。そのため、一定以上の単
語出現頻度という枠をはめた上でキーワード選択にランダム性を持たせることとした。
4.ユーザインタフェース機能
関連キーワードならびに関連する映像データ、番
組表データを容易に把握、操作できるインタフェースをユーザに対して提供する機能である。
起動すると画面左側に初期キーワードが表示され
る。ユーザはこの中から任意のキーワードを選択する。すると2.項で記述した映像検索機能により、選択候補となる映像データが右側に示される。この表示は
一定時間操作を行わないと自動的にスクロールし、ユーザは操作することなしにそれらの映像情報を眺めることができる。
ここで各番組の情報は以下の要素で構成される。
・ 番組の題名
・ 映像サムネイル(最大4枚)
・ 番組概要テキスト
ここからキーワードをさらに選択することにより、二つのキーワードを用いたand
検索を行うことができる。またキーワードを長押しすると、そのキーワード単独で検索を行う。
また右側に表示された番組を選択すると、選択された番組データは左側中央に移動し選択された番組の動画が表示される。また関連キーワード及び関連映像情
報が更新される。
このようにして自分が少しでも気に入った番組を選択していくことにより、視聴する番組を決めることができる。また選択された番組の一覧は履歴として、画
面左端に薄く表示されていく。このため画面を見る際の邪魔にならず、かつ自分が選択した番組の中から改めて見たい番組を探す、といった使用法も可能となっ
ている。
ここで選択した番組をじっくり見たい、という際には動画をクリックすると選択された動画が全画面表示となり、右側に流れる表示にわずらわされることな
く、視聴することが可能となる。
また、キーワードもしくは番組を選択し、それに
関連する映像情報が表示されはしたが、それらとは別の情報を見たい、いわゆる「気が変わる」といった事態も想定される。そうした場合のために今回作成した
システムでは2種類の操作をサポートしている。
1)今の傾向と同じ番組情報をもっと見たい場合:キーボードの下矢印キー(↓)を押す。すると現在表示されているものより、下位にランクされた番組情報
が順々に表示される。これは既存のリストインタフェースにおけるスクロールに相当する操作である。
2)もう少し違った傾向の番組情報を見たい場合:キーボードの右矢印キー(→)を押すと現在表示されている番組情報と「類似しない」情報を表示する。こ
れは前述の映像検索機能で評価した結果を最下位から順に表示することで実現している。
これら一連の操作過程において、常に画面上には
番組情報が表示され続けている。これは今回作成したシステムが既存の検索インタフェースと最も異なる点である。明確な要求を持たず、番組を閲覧している
ユーザは、とにかく気に入ったものが目に入れば、それで満足することが期待できる。従って、検索を行う間、映像の表示を停止するのではなく、どんどん候補
を提示し続けることにより、ユーザが「面白い」と思える番組に出会えることを狙っている。
|