デジタル人材の育成

未踏IT人材発掘・育成事業:2017年度採択プロジェクト概要(伊藤PJ)

1.担当プロジェクトマネージャー

  • 藤井 彰人(KDDI株式会社 ソリューション事業本部ソリューション事業企画本部副本部長 兼 クラウドサービス企画部長)

2.採択者氏名

  • 伊藤 竜一(大阪大学 大学院 情報科学研究科)

3.採択金額

  • 2,304,000円

4.テーマ名

  • 様々なデータソースに対応する高速なグラフ処理エンジンの開発

5.関連Webサイト

  • なし

6.申請テーマ概要

近年ネットワークやストレージなどの進歩によって様々な大規模データが収集可能になり、そのデータから有益な情報を得るためデータマイニングが盛んに行われている。データマイニングには多くのアプローチがあるが、中でもグラフ構造に注目したグラフマイニングは強力である。しかしながら、RDBに格納されているような非グラフ構造データをその対象にする場合は、グラフ構造を生成しなければならない。特に非構造化データ変換の一般化が難しいことから、グラフ生成から処理までを一貫して高速に行うことができる、グラフマイニングのためのツールは発展していない。
そこで本プロジェクトでは、多様なデータソースを利用可能であり、かつ高速なグラフ処理エンジンを開発する。ここで言うグラフ処理エンジンとは、グラフ構造データのOLAPを実現するミドルウェアを指す。グラフ構造データの生成はプラグインとして実装することで、データソース内の明示的な要素からグラフ構造を抽出する処理フローだけでなく、k近傍グラフやL1グラフといった潜在的なグラフ構造を対象に取ることができる処理フローも合わせて提供する。これらを組み合わせることで、例えば「RDBに蓄積された購買データに対して、グラフ構造に基づいて購買傾向の似たユーザクラスタの抽出をする」といった分析処理を容易にする。また、増加しつつあるCPUコアを適切に利用することで、2コア程度のコンシューマ向けラップトップマシンから100コア超えのNUMA環境HPCマシンまで、広い範囲で一貫して高い処理パフォーマンスを実現する。

7.採択理由

大規模データから有益な情報を得て活用するニーズが高まるなか、現実にはそのデータソースはフォーマット含め様々であり「データ分析作業の9割以上が前処理」など揶揄されるように、実際には有効に活用することには多くの作業が必要である。本提案は、様々なデータソースに対応できるだけでなく、高速なグラフ処理も可能にするエンジンを開発する提案である。未踏期間中にデータアナリストが喜ぶ、簡単に利用できかつ高速なツール群を開発してくれることを期待している。