| 
情報検索における重みや言語の分析には頻度(出現回数)の計算が重要な意味を持つ。通常の計数方法では、あらかじめ計測する対象の文字列(通常は単語)を決めておき、データの先頭から、その文字列の出現回数を数えるのであるが、すべての文字列を対象とできれば、一般的な分析ができる。この目的のために、開発されたアルゴリズムがあるが、分析対象と計算途中の情報をメモリにいれて、ランダムにアクセスするため、外部記憶(ファイル)で計算することが難しく、実際には利用できるメモリの10%程度の大きさの対象が分析できる限界であるという問題があった。また、複雑に情報を交換するため、複数のマシンに分割して計算することもできない。そこで、アルゴリズムを改良し、ランダムアクセスを行う部分を外部記憶で行うようにし、メモリと同等の大きさの対象を分析できるようにし、さらに、複数のマシンで共同して計算することで、計算機の台数を増やすことで分析対象の大きさを増やすことができるようなシステムを開発する。

|