AI安全性評価とは？わかりやすく解説

一文定義

LLMの有害出力・誤用・セキュリティリスクを系統的に評価するプロセス。レッドチーミング・ベンチマーク・自動評価を組み合わせる。

詳細解説

AI安全性評価（AI Safety Evaluation）とは、LLMおよびAIシステムが有害なコンテンツを生成する、悪用される、意図しない動作をするといったリスクを系統的に特定・定量化・緩和するための評価プロセスです。モデルのリリース前・デプロイ後の継続的な監視の両フェーズで実施されます。

評価の主要カテゴリとして、(1)有害コンテンツ生成（ヘイトスピーチ・暴力・違法情報の出力傾向）、(2)脱獄耐性（Jailbreakプロンプトへの対抗能力）、(3)プロンプトインジェクション耐性（外部入力による指示乗っ取り）、(4)幻覚・誤情報率、(5)プライバシー侵害リスク（学習データのメモリ化）があります。

手法面では、人手によるレッドチーミング（セキュリティ専門家が攻撃シナリオを試行）と、自動レッドチーミング（LLMが攻撃プロンプトを大量生成）を組み合わせることが標準的になっています。ベンチマークとして、MT-Bench・HarmBench・AIR-Bench・HELM-Safetyなどが広く使われています。

規制動向として、EU AI ActやNIST AI Risk Management Framework（AI RMF）は高リスクAIシステムに対して安全性評価の実施を義務付けており、エンタープライズ導入時には内部・第三者評価の証跡を求められる場面が増えています。

参考情報・出典

▸
NIST AI Risk Management Framework (AI RMF)— NIST（参照日: 2026-02-26）
▸
Responsible Scaling Policy – Anthropic— Anthropic（参照日: 2026-02-26）

AI安全性評価

一文定義

詳細解説

参考情報・出典

関連用語

AIスキルだけでなく、自分と未来を再設計する