社会・産業のデジタル変革
公開日:2022年5月12日
最終更新日:2023年7月20日
独立行政法人情報処理推進機構
総務企画部 調査分析室
執筆:安田 央奈 2022年3月31日
データマネジメントの一連のプロセスのうち、データの準備に費やされている時間は分析に費やされている時間より多く、データ準備工程の効率化は重要な課題となっている。データプリパレーションツールはデータの整形や統合といった準備処理を簡単な操作、あるいはAI・機械学習で自動実行できる機能を備えており、データ準備を効率化するにとどまらず、非技術者がデータ準備を実行することを可能にする。
本稿では、データ準備工程の効率化におけるデータ準備処理を行うツールの簡易化・自動化の潮流と、それによる「データの民主化」について詳述する。
顧客データの分析によるパーソナライズサービスの提供や、気候や人の移動といったあらゆるデータからのリスク予測など、データ分析に基づいた意思決定を行うことは、ビジネスにおいて必要不可欠になりつつある。先進的な企業はデータからの更なる価値創造を追求し新しい技術を取り入れており、データマネジメントで活用されている技術の潮流はデータ利活用を戦略に組み込んでいくうえで注目し対応していかなくてはならない動向となっている。
データによる価値創造やイノベーションにおいて、データエンジニアやデータサイエンティストは中心的役割となることが期待されている人材である。データサイエンティストとは統計学や情報科学理論に基づいてデータから洞察を得るプロフェッショナルであり、データエンジニアとはデータ利活用の基盤を構築・運用する技能を持ったプロフェッショナルであり、企業によっては非常に高額な報酬を設けている専門職である。
ところが、データサイエンティストやデータエンジニアに集まる期待や脚光とは裏腹に、データを収集、整形、分析するデータマネジメントの一連のプロセスの大半は創造的で変革的な価値創造ではなく、付加価値の低い地味な作業が占めている。
2016年にCrowdFlower社(現Figure Eight社)がデータサイエンティストに対して、データマネジメントのプロセスのうち何に最も時間を使っているのか調査(脚注1)を実施した。そして、79%がデータ準備工程に最も時間を使っているとの結果が示された(Cleaning and organizing data60%、Collecting data sets19%の合計である)。2020年にAnaconda社が実施した別の調査(脚注2)ではデータマネジメントの一連の各工程において、データサイエンティストがそれぞれ何割の時間を費やしているのかが調べられた。最も高い割合となったのがデータ準備(Data preparation)の22%で、次いでデータ整形(Data cleansing)17%となった。データマネジメントにおいて、業務時間の約40%がデータ準備工程に費やされているのである。
新たな洞察を見出す分析の工程よりも、付加価値の低いデータ準備工程に長い時間が費やされているとの結果は衝撃的であり、データ準備工程の効率化は重要な課題として度々議論されてきた。
本稿では、データ準備工程の効率化におけるデータ準備処理を行うツールの簡易化・自動化の潮流と、それによる「データの民主化」について詳述する。
IPA 総務企画部 調査分析室
2023年7月20日
2023年7月1日の組織改編に伴い、お問い合わせ先を更新