デジタル人材の育成
公開日:2026年5月29日
AIの学習に用いる画像データには、重複や誤ラベルが混入しやすく、このノイズにより精度が落ちるため現場では人手で点検・再ラベリングする必要があるが、時間とコストが大きく判断も属人化しやすい。また、学習に用いるデータの選び方はデータ量の増加に伴い候補が爆発し、高精度を保てる構成を人手で見つけることは難しい。
本提案では、点検・再ラベリング負担を減らすため、使用する画像データ集合を最適化で決定するアプリケーションを開発する。事前学習済みモデルから抽出した特徴量を用いてデータ間の類似度を算出し、コサイン類似度に基づくQUBO近似によって探索コストを削減する。また、量子アニーリングを用いて有望なデータ集合を多様にサンプリングし、頑健なデータ構成を探索する。さらに、特徴量のキャッシュ化や軽量な評価器を用いることで探索を高速化し、問題分割と反復最適化により量子ハードウェアの制約下でも実用規模への適用を目指す。加えて、FMQA等による低ランク近似も拡張候補として検討しつつ、除外理由の可視化や再点検候補の提示を備えた実用ソフトウェアとして整備する。
量子アニーリングによるデータクレンジング手法を数万件規模の実用画像データへスケールアップするという明確な目標設定と、それを実現するための複数の技術的工夫が論理的に組み立てられている点を高く評価した。予備実験で提案手法の有効性を既に実証しており、実装力と研究遂行能力の高さがうかがえる。データセントリックAI開発においてデータ選定は中核的な技術課題であり、近年の生成AI開発の文脈でもその重要性は一層増している。産業応用の観点からも高いポテンシャルを持つプロジェクトとして期待する。
2026年5月29日
2026年度採択プロジェクト概要(閏間・小堀PJ)を掲載しました。