|
(1)RNA検索システムの検索部
確率文脈自由文法による機能RNAのプロファイリングにおいて,広く共通に用いられているCM形式のプロファイルをクエリとして用いて検索を行う.

図1.
CM形式のプロファイルの例
CM形式のプロファイルはテキスト形式のデータとして配布されており,図1は典型的なCM形式のプロファイルの一部である.各行では「状態名(=品詞名)」,「状態の通し番号」,「最後の親の通し番号」,「親の総数」,「最初の子の通し番号」,「子の総数」に続いて,各「子」への遷移確率の対数が負の小数で与えられている.
確率文脈自由文法の効率的な構文解析アルゴリズムであるCYKアルゴリズムを用いて,CM形式のプロファイルをクエリとしてターゲット文字列の構文解析を行う.図2のように,プロファイルの長さの部分文字列をCYKアルゴリズムで構文解析し,構文解析の結果の確率がプロファイルの閾値を超える場合は出力を行い,解析対象の部分文字列をひとつ進めまた構文解析を行うという処理をターゲット文字列が終了するまで繰り返す.
図2. クエリによるターゲット文字列の検索
(2)RNA検索システムのユーザインタフェース
クエリの選択は,図3の画面中央部に列挙された「クエリ選択用アイコン」をクリックすることにより行う.各「クエリ選択用アイコン」には確率文脈自由文法のツリーを小さく表示する.「クエリ選択用アイコン」は、左右に配置された「クエリ選択用アイコンスクロールボタン」により左右にスクロールでき,クエリを選択すると「クエリ選択用アイコン」の上に重なった状態で確率文脈自由文法のツリーが表示される.ターゲット文字列は下部の「ターゲット文字列入力用テキストボックス」に入力する.
「検索ボタン」を押すと,検索が実行されるとともに「クエリ選択用アイコン」が消え選択されたクエリのツリー表示だけが残り,図4のようにユーザインタフェースの中央部が「検索結果表示部2」となる.検索が終了すると,「検索結果表示部1」に検索結果のヒット数とヒットした文字列上の位置がテキストで表示される.また「検索結果表示部2」にターゲット文字列全体が塩基アイコンで表示され,最初のヒットした部分が強調表示される.
|