デジタル人材の育成
近年ネットワークやストレージなどの進歩によって様々な大規模データが収集可能になり、そのデータから有益な情報を得るためデータマイニングが盛んに行われている。データマイニングには多くのアプローチがあるが、中でもグラフ構造に注目したグラフマイニングは強力である。しかしながら、RDBに格納されているような非グラフ構造データをその対象にする場合は、グラフ構造を生成しなければならない。特に非構造化データ変換の一般化が難しいことから、グラフ生成から処理までを一貫して高速に行うことができる、グラフマイニングのためのツールは発展していない。
そこで本プロジェクトでは、多様なデータソースを利用可能であり、かつ高速なグラフ処理エンジンを開発する。ここで言うグラフ処理エンジンとは、グラフ構造データのOLAPを実現するミドルウェアを指す。グラフ構造データの生成はプラグインとして実装することで、データソース内の明示的な要素からグラフ構造を抽出する処理フローだけでなく、k近傍グラフやL1グラフといった潜在的なグラフ構造を対象に取ることができる処理フローも合わせて提供する。これらを組み合わせることで、例えば「RDBに蓄積された購買データに対して、グラフ構造に基づいて購買傾向の似たユーザクラスタの抽出をする」といった分析処理を容易にする。また、増加しつつあるCPUコアを適切に利用することで、2コア程度のコンシューマ向けラップトップマシンから100コア超えのNUMA環境HPCマシンまで、広い範囲で一貫して高い処理パフォーマンスを実現する。
大規模データから有益な情報を得て活用するニーズが高まるなか、現実にはそのデータソースはフォーマット含め様々であり「データ分析作業の9割以上が前処理」など揶揄されるように、実際には有効に活用することには多くの作業が必要である。本提案は、様々なデータソースに対応できるだけでなく、高速なグラフ処理も可能にするエンジンを開発する提案である。未踏期間中にデータアナリストが喜ぶ、簡単に利用できかつ高速なツール群を開発してくれることを期待している。