現在、Web情報、ゲノム情報を初めとして、膨大な量の情報が秩序無い状態で存在しており、何らかの形で整理する必要がある。そうした中、文書分類は情報を整理する技術の中でも最重要技術の一つである。ここでの文書は、自然言語に限らず文字列化可能な全情報とする。分類対象となる文書の数は人の手には負えないサイズとなりつつあり、何らかの形で自動分類を行う必要がある。現在、文書分類は、文書の特徴を、それに含まれる各単語やキーワードの出現状況をベクトルの要素として表し、このベクトルを基にして文書が似ているかどうかを判定する、いわゆる"bag
of words" (BOW)を用いて分類を行うのが一般的である。しかし、BOWを用いると正確に単語を分解する必要がある上に、未知語の取り扱いや、単語に分けられない情報をどのように扱うか、単語の並び方情報の欠如などの問題が生じる。今回提案する手法では文脈を考慮した分類を行う。この文脈を考慮するとは、情報の並び方を考慮する点、情報を必ずしも単語に分解せず全部分列を考慮する点を意味する。この実現のための技術としてSuffix
Arrays(以下 SA)、Suffix Trees(以下ST)を用いる。これらを用いることで全文書集合の全部分列を効率よく列挙し、分類、クラスタリングを行うことが可能である。また、SAやST、文書集合情報をそのまま扱うのは領域量の面から実用的ではないが、これらは近年提案されてきているCompressed
SAやCompressed ST、また文書集合に対する効率的な演算を利用することで解決可能である。これらを利用し実用的なクラスタリング、分類を行う手法を開発する。
|