社会・産業のデジタル変革

AIのためのデータ環境整備

公開日:2023年12月20日

最終更新日:2024年4月2日

独立行政法人情報処理推進機構
デジタル基盤センター

AIを構築し利用するためにはデータが必要になり、またその結果としてデータが生成されます。
AIシステムが正しく機能するためには、十分な量と質が確保されたデータを供給する必要があります。

OECDは、AIシステムを以下のように定義しています。

An AI system is a machine-based system that, for explicit or implicit objectives, infers, from the input it receives, how to generate outputs such as predictions, content, recommendations, or decisions that can influence physical or virtual environments. Different AI systems vary in their levels of autonomy and adaptiveness after deployment.

(AIシステムは、“明示的または暗黙的な目的のために、受け取った入力から、予測、コンテンツ、推奨、または物理的または仮想的な環境に影響を与えることができる決定などの出力を生成する方法を推論する“機械ベースのシステムです。AIシステムによって、自律性や導入後の適応性のレベルは異なります。)

2023年12月21日にデジタル庁から「AI時代の官民データの整備・連携に向けたアクションプラン」が公表され、データ環境の整備が進められています。

質の高い信頼できるデータの整備

質の高いデータとは、データが正確かつ最新であり、抜け漏れやバイアスのないデータのことです。このようなデータをAIの学習やAI利活用の対象データにすることで、AIから正確なデータを得ることが容易になります。
そのため、自分でデータを整備するときには設計を正しく行う必要があり、政府相互運用性フレームワーク(GIF)においてデータモデルやマスターデータ管理などの方法論を示したガイドを提供しています。

GIFでは、データの品質管理のための国際標準等をもとにした「データ品質管理ガイドブック」を公開しています。

さらに、AIを安心して使うためには信頼できる社会の基本データを整備していくことが重要です。政府では、人、法人、土地などの届け出(登録)をもとにした重要な情報に関してベースレジストリといわれる信頼できる基本データを提供する仕組みを構築しています。

十分な量のデータの供給

構築フェーズでは、目的を達成するのに必要で十分かつバイアスのかからないデータが供給されることが必要で、それらのデータを使ってAIは多様な学習をすることができます。そのため先進各国は社会の基礎データを供給するため、行政機関の保有する情報を公開するオープンデータ戦略を推進しています。これらの情報の提供は、データの信頼性確保にも寄与する取り組みです。オープンデータとして以下のサイトからデータセットが提供されています。

学習データの提供に関しては国立研究開発法人情報通信研究機構(NICT)がAI学習用データセットを公開しています。

また、2023年11月には「AI学習の提供促進に向けたアクションプラン」が内閣府から提供されています。

データ辞書などの基礎情報の提供

AIが正しく学習するためには信頼できるデータであることはもちろんですが、正しく理解できる仕組みも必要です。例えば「大量の水が必要だ」と指示されたときに、飲用水か生活用水か等、場面により意味が異なります。このような意味の相違を処理できるようにデータ辞書やオントロジといわれる概念辞書の整備が進められています。また、選択肢を示すコード表や統制語彙といわれるものも必要になってきます。

IPAでは、辞書やコード一覧整備に向けた取り組みを進めています。

データの知的財産の扱い

AIが知的財産を持つ情報を学習データに使ったり、AIが創作したものの知的財産をどうするか等、AIに関連しいた知的財産の課題は多岐にわたります。そのため、2024年3月に文化庁が「AIと著作権に関する考え方について」を公表しています。

また、政府の知的財産戦略本部に「AI時代の知的財産権検討会」が設置されており、「AI時代の知的財産権検討会 中間とりまとめ骨子(案)」を公表しています。

お問い合わせ先

IPA デジタル基盤センター

  • E-mail

    disc-infoアットマークipa.go.jp

更新履歴

  • 2024年4月2日

    デジタル庁「デジタル関係制度改革検討会」へのリンクを追加
    デジタル庁「データ品質管理ガイドブック」(GitHub)へのリンクを追加
    「データ辞書などの基礎情報の提供」、「データの知的財産の扱い」セクションの追加
    文化庁「AI と著作権に関する考え方について」、首相官邸「AI時代の知的財産権検討会 中間とりまとめ骨子(案)」へのリンクを追加

  • 2023年12月20日

    公開