社会・産業のデジタル変革

AIのためのデータ環境整備

公開日:2023年12月20日

独立行政法人情報処理推進機構
デジタル基盤センター

AIを構築し利用するためにはデータが必要になり、またその結果としてデータが生成されます。
AIシステムが正しく機能するためには、十分な量と質が確保されたデータを供給する必要があります。
OECDは、AIシステムを以下のように定義しています。

質の高いデータの整備

質の高いデータとは、データが正確かつ最新であり、抜け漏れやバイアスのないデータのことです。このようなデータをAIの学習やAI利活用の対象データにすることで、AIから正確なデータを得ることが容易になります。
そのため、自分でデータを整備するときには設計を正しく行う必要があり、政府相互運用性フレームワーク(GIF)においてデータモデルやマスターデータ管理などの方法論を示したガイドを提供しています。

十分な量のデータの供給

構築フェーズでは、目的を達成するのに必要で十分かつバイアスのかからないデータが供給されることが必要で、それらのデータを使ってAIは多様な学習をすることができます。そのため先進各国は社会の基礎データを供給するためオープンデータ戦略を推進しています。オープンデータとして以下のデータセットが提供されています。

学習データの提供に関しては国立研究開発法人情報通信研究機構(NICT)がAI学習用データセットを公開しています。

また、2023年11月には「AI学習の提供促進に向けたアクションプラン」が内閣府から提供されています。

お問い合わせ先

IPA デジタル基盤センター

  • E-mail

    disc-infoアットマークipa.go.jp