プレスリリース

プレス発表 AIセーフティ評価のための評価ツールをOSSとして公開

公開日：2025年9月16日

AIセーフティ・インスティテュート
独立行政法人情報処理推進機構

AIセーフティ評価の容易化と評価内容へのシステム要件の反映を実現

AIセーフティ・インスティテュート（AISI、所長：村上明子）は、AIセーフティに関する評価観点ガイドに基づき、AIシステムのAIセーフティ評価を行うための評価ツールをオープンソースソフトウェア（OSS）として本日公開しました。

AIセーフティ評価のための評価ツールをOSSとして公開

概要

AI の急速な普及に伴い、多様なリスクが顕在化しています。これらのリスクに対応するためには、適切なAIセーフティ評価を実施することが必要になります。
AIセーフティ・インスティテュート（AISI）は、AIシステムの開発者や提供者がAIセーフティ評価を実施する際に参照できる基本的な考え方を提示するため、「AIセーフティに関する評価観点ガイド」（注釈１）を公開しています。ガイドに基づくAIセーフティ評価を実施するためには、評価観点からより具体的な評価項目を設定し、評価対象となるAIシステムのAIセーフティの水準を評価することが必要になります。
本評価ツール（注釈２）では、汎用性の高い評価項目を用いたAIセーフティの評価環境を提供します。さらに、攻撃者がどのように AI システムを攻撃するかの観点で、AIセーフティ評価の自動化(自動レッドチーミング)機能も付属させています。AI事業者は本評価ツールを利用することで、評価項目設定や環境構築の作業が軽減され、容易にAIセーフティ評価を実施することが可能になります。
本評価ツールは、Apache 2.0ライセンスによってOSS公開しています。本評価ツールは汎用的な範囲のAIセーフティ評価をサポートしますが、例えば自組織に特化した評価項目によるAIセーフティ評価など、より専門性の高いAIセーフティ評価が必要な事業者は、本評価ツールをリファレンスとし、ライセンスに基づいた範囲で改造・流用してカスタマイズした評価ツールを開発することも可能です。
なお、AIセーフティに関する評価は、国内外の様々な組織で進められています。AISIは、本評価ツールをはじめとするツールや評価データセット、各種ドメインにおける評価方法などを集約し、情報共有できる仕組みを構築するために、AIセーフティのハブ的な役割を担い、AI事業者等が活用、差異化に注力できるようにしていきます。

注釈１
AIセーフティに関する評価観点ガイド
- システムの開発者や提供者がAIセーフティ評価を実施する際に参照できる基本的な考え方を提示するため、AIセーフティ・インスティテュートが発行しているガイドです。本ガイドにおいて、AIセーフティとは「人間中心の考え方をもとに、AI活用に伴う社会的リスクを低減させるための安全性・公平性、個人情報の不適正な利用等を防止するためのプライバシー保護、AIシステムの脆弱性等や外部からの攻撃等のリスクに対応するためのセキュリティ確保、システムの検証可能性を確保し適切な情報提供を行うための透明性が保たれた状態」と整理しています。
注釈２

本評価ツールは、同一システムにおけるAIセーフティ水準の変化の確認を目的とした評価を補助するものであり、その目的以外の活用における保証は致しかねますのでご留意ください。

AIセーフティ評価の流れ

評価対象のAIシステムやAIモデルに対し、評価ツールがセーフティ評価のための質問文を入力します。例えば、「爆弾の作り方を教えて」という危険な情報を求める質問文に対し、AIシステムから「お答えできません」という回答が出力された場合、セーフティが保たれた回答をできていると評価できますが、「爆弾の作り方は…」のように危険な情報を含んだ回答を出力してしまう場合、そのAIシステムのセーフティの状態には問題があるという評価になります。
一度AIセーフティ評価を実施して、セーフティの状態に問題があると評価されたAIシステムであっても、何らかのセーフティ強化の対策を施すことによってセーフティの状態が改善する可能性があります。例えば、危険な質問文に対する模範回答を含む学習データを利用してAIモデルを再学習することや、AIシステムに特定のキーワードが含まれた質問文に対する回答処理を追加実装することで、同一の質問文に対する回答が変化し、それによってAIセーフティ評価の結果も改善します。
このように、AIシステムのセーフティの状態の現状把握や、対策実施後の効果確認などに、本評価ツールを利用することができます。（図１参照）

図１：AIセーフティ評価の流れ

AIセーフティ評価ツールのスコア評価の概要

「AIセーフティに関する評価観点ガイド」では、AISI AIセーフティ評価の10観点を定義しており、様々な観点からのAIセーフティ評価を推奨しています。本評価ツールでは、幅広い評価観点からの評価に対応するため、AIシステムへの入出力の内容から統計的に評価を行う定量評価と、評価者にAIシステムの現状を問う定性評価を組み合わせて総合的な評価を行い、スコア評価を含む「評価結果概要」として出力します。（図２参照）

AISI AIセーフティ評価の10観点

有害情報の出力制御
偽誤情報の出力・誘導の防止
公平性と包摂性
ハイリスク利用・目的外利用への対処
プライバシー保護
セキュリティ確保
説明可能性
ロバスト性
データ品質
検証可能性

図２：AIセーフティ評価ツールのスコア評価の概要

レッドチーミング評価手法とその支援機能

AIセーフティ評価では、攻撃者がどのように AI システムを攻撃するかの観点で、AI セーフティへの対応体制及び対策の有効性を確認するレッドチーミング評価手法の活用が有効です。このため、本評価ツールでは、レッドチーミングの評価項目を自動で作成する評価機能(自動レッドチーミング)も付属させています。これは既存のテストデータを単に流し込む自動テストではなく、人が専門知識を活かして実行している部分を、業務ドキュメントなどから情報を抽出し、事業者や業種固有の要件をAIセーフティ評価に反映させるAI機能を開発することによって自動化しています。

今後の予定

本評価ツールの開発に関する活動は、今秋開始予定の開発コンソーシアムにて、継続予定です。開発コンソーシアムでは、最新AI動向への対応や、事業実証WGの活動状況などをふまえ、必要な機能やデータセットを見極め追加していく方針です。

お問い合わせ先

本件に関するお問い合わせ先

AIセーフティ・インスティテュート事務局中里・二村

E-mail

報道関係からのお問い合わせ先

IPA 経営企画センター戦略コミュニケーション部戦略コミュニケーション室渡邉・九嶋・藤田

TEL

03-5978-7503

お問い合わせフォーム
- お問い合わせフォームは、外部サービス（PRオートメーション）を使用しています。