社会・産業のデジタル変革

2.「データの民主化」従業員によるデータ利活用の拡大

公開日:2022年5月12日

最終更新日:2023年7月20日

独立行政法人情報処理推進機構
総務企画部 調査分析室
執筆:安田 央奈 2022年3月31日

データマネジメントの一連のプロセスのうち、データの準備に費やされている時間は分析に費やされている時間より多く、データ準備工程の効率化は重要な課題となっている。データプリパレーションツールはデータの整形や統合といった準備処理を簡単な操作、あるいはAI・機械学習で自動実行できる機能を備えており、データ準備を効率化するにとどまらず、非技術者がデータ準備を実行することを可能にする。
本稿では、データ準備工程の効率化におけるデータ準備処理を行うツールの簡易化・自動化の潮流と、それによる「データの民主化」について詳述する。

2.非技術者によるデータ準備が可能となる簡易化・自動化の技術潮流

<1>データ利活用におけるデータ整形の必要性

データ利活用をビジネス戦略上高いプライオリティに位置づけている企業は、財務データ以外にもシステムデータやソーシャルデータ、IoTなど各種デバイスから生成されるデータも利活用の対象としており、このように多様なデータから価値ある洞察を得るためには分析に応じてデータを準備することが必要である。
データは発生してから分析できるようになるまでに図表1に示す「転送・収集、保管、整形、蓄積、活用」の各段階に応じて適切な形状で取り扱われ処理される。

  • 図表1データ活用基盤の全体像
    図表1 データ活用基盤の全体像(脚注3)

「転送・収集」「保管」の段階では様々なソースからデータを集めてくる。データレイクを使えば、データの構造やファイルフォーマットを問わず読み込んだデータをそのままの構造で保管することが可能となる。保管時のデータに対する加工処理を最小限に留め、比較的発生時の生データに近い状態で保管できるデータレイクの特性は、将来的に必要となる可能性があるデータを保管する点においても重要であり、必要性は高まっている。
 一方、データウェアハウスには、AI・機械学習やグラフ作成の可視化ツールで分析できる状態に整形し、構造化したデータを蓄積する。多様なソースから収集したため生じる表記ゆれの修正や、不要データの削除、関連データの統合などの整形は、データから洞察を得るうえで重要な準備工程である。
例えば、COVID-19やインフルエンザなどの感染症対策のため、感染者数の予測分析をしようとする場合。公的機関が公開している感染者数の変移、病院の患者収容状況、交通機関が公開する人の移動増減など各ソースから関連データを収集するが、感染症表記が「COVID-19」と「コロナ」で統一されていなければ「コロナ」表記になっているデータを「COVID-19」に統一するよう修正し、位置に関する情報を番地まで含んでいるデータと含んでいないデータが混じっている場合には番地を削除して市区町村までの表記に統一したり、番地まで含んでいる別のデータを作成または入手したりして、データを整形する必要がある。
データ利活用のユースケースが増えれば、それに合わせたデータを作成しなくてはならないため、データマネジメントが効率よく実施できていなければ、使いたい時に使いたいデータや分析結果を得られず、ビジネス上の成果を得られなくなってしまう。従来は、データの変換や統合を実行できるプログラミング言語のPythonやRuby、データベース言語のSQLの技能を習得しているデータサイエンティストやデータエンジニアなどの技術者が整形処理の主な担い手とならざるをえなかったが、データプリパレーションツールがその状況を変え始めている。

<2>データプリパレーションツールによる整形処理の簡易化・自動化

昨今のデータマネジメントにおいて、データへの接続や整形処理をノーコード/ローコード(脚注4)による操作で実行したり、整形が必要なデータをAI・機械学習が検知したり、簡易あるいは自動でデータ準備を行えるデータプリパレーションツールの導入が広まりつつある。当機構が2021年に日米企業に実施したアンケート調査ではデータプリパレーションツール(データ整備ツール)を活用していると回答した日本企業は21.1%(「全社的に活用している」が6.8%、「事業部で活用している」が14.3%)だが、米国企業は70.4%(「全社的に活用している」が50.1%、「事業部で活用している」が20.3%)と高い比率を示した。
データプリパレーションツールの導入により、従来データ準備を担ってきた技術者側のプログラムを組む手間や時間を軽減するにとどまらず、非技術者である事業部側でもデータの準備を容易に実行できるようになる。
データプリパレーションツールは主に以下の機能を有している(脚注5)。

(1)データ接続

データベースやファイルに接続し、目的のデータを取得する機能である。
多様な外部ソースとの接続をサポートするコネクタを備えており、新たなソースを追加する場合のパイプラインを容易に構築することができる。

(2)データ確認

取得したデータの分布や、整形処理前後のデータを確認する機能である。
非構造化データファイルのデータからメタデータ(脚注6)を分析して、構造化させてテーブル状に表示したり、簡易なグラフを自動作成したりできる。一部のデータプリパレーションツールでは、クレジットカードや電話番号など個人に関する情報を自動検知して、そのデータが含まれる列や箇所をハイライト表示し取扱い注意を促す機能が組み込まれている。

(3)データ整形

欠損データの補完や、表記ゆれの修正、データの分割、重複データや外れ値データの削除などといったデータを整形する機能。ツールにより整形パターンは異なる。
例えば、データの作成元の違いから日付データの書き順に「dd-mm-yy」や「yy-mm-dd」、「mm-dd-yy」のようなバラつきがあった場合に、指定した日付の書き方に自動的に修正するといった機能を使うことができる。ツールによっては、AI・機械学習により整形の必要なデータを検知して表示する高度な機能を有する。

(4)データ結合

指定する条件のもと、複数のデータを結合する機能。 複数のソースから関連するデータを収集し統合することで分析の精度を高めたり、より深い洞察を得たりすることが期待できる。

これらの機能を使用すれば、上述の感染者数予測分析のようなデータも事業部内で準備して分析できる。データの専門家でない者がデータプリパレーションツールを使って準備する場合、一度の操作では高品質のデータ作成は困難であるが、操作性の容易さから試行錯誤の繰り返しを通じてデータを洗練させていくような使い方ができる。

データプリパレーションツールの利活用からは、データ準備時間の短縮の成果も期待できる。データ準備の時間短縮は、データを使ったビジネスプロセス全体の時間短縮にも繋がる。例えば、GlaxoSmithKline社(以下GSK社)では、以前は科学者や研究者はIT部門から必要なデータが届くまで数週間から数カ月待たなくてはならなかった。GSK社はビックデータ分析の環境を整えるためにデータ利活用に関する技術や知見を集約したCoE(Center of Excellence)を構築し、データ統合やストリーミングと合わせてデータプリパレーションツールのTrifacta(脚注7)を導入して科学者や研究者自身でもデータにアクセスできる環境を整えた。科学者や研究者はデータプリパレーションツールを使ってIT部門に頼らずに自身で必要なデータを入手できるようになったことから、通常6ヶ月かかる新薬開発のプロセスを2週間に短縮することができた。

データプリパレーションツールを活用すると非技術者でもデータ整形ができるようになるが、データプリパレーションツールのみでは必要なデータへのアクセスを実現することはできない。非技術者がデータ準備に加わるにはデータプリパレーションツールと合わせて、必要となるデータが纏まって保管されるデータレイクを取り入れたデータマネジメントも今まで以上に重要となってくる。ビジネスの知見を有する事業部側がデータを観察することで、今まで使っていなかったデータを分析し、新たな洞察を得られる可能性もある。
データレイクは、もともとはデータの多様化・大容量化に応じた拡張性の高いデータストアであるが、データプリパレーションツールのユーザにとって、必要となるデータの保管場所が集約されてアクセス先が明確化しているという効果も発揮している。GSK社のように、データプリパレーションツールの導入だけでなく、データやそれに関する技術と知見の集約を合わせることが重要となる。

  1. (脚注3)
    「DX白書2021」図表42-6「データ活用基盤の全体像」
  2. (脚注4)
    プログラミング言語なしで処理を実行できる(ノーコード)、あるいは簡単なプログラミングで処理を実行できる(ローコード)機能・特性
  3. (脚注5)
    「DX白書2021」図表42-11「データプリパレーションツールの主な機能」をもとに作成
  4. (脚注6)
    ここでのメタデータとは、データの意味や構造、特性などといったデータに関する付随情報を示す
  5. (脚注7)

お問い合わせ先

IPA 総務企画部 調査分析室

  • E-mail

    ga-ra-dxwpアットマークipa.go.jp

更新履歴

  • 2023年7月20日

    2023年7月1日の組織改編に伴い、お問い合わせ先を更新