一文定義
LLMの有害出力・誤用・セキュリティリスクを系統的に評価するプロセス。レッドチーミング・ベンチマーク・自動評価を組み合わせる。
詳細解説
AI安全性評価(AI Safety Evaluation)とは、LLMおよびAIシステムが有害なコンテンツを生成する、悪用される、意図しない動作をするといったリスクを系統的に特定・定量化・緩和するための評価プロセスです。モデルのリリース前・デプロイ後の継続的な監視の両フェーズで実施されます。
評価の主要カテゴリとして、(1)有害コンテンツ生成(ヘイトスピーチ・暴力・違法情報の出力傾向)、(2)脱獄耐性(Jailbreakプロンプトへの対抗能力)、(3)プロンプトインジェクション耐性(外部入力による指示乗っ取り)、(4)幻覚・誤情報率、(5)プライバシー侵害リスク(学習データのメモリ化)があります。
手法面では、人手によるレッドチーミング(セキュリティ専門家が攻撃シナリオを試行)と、自動レッドチーミング(LLMが攻撃プロンプトを大量生成)を組み合わせることが標準的になっています。ベンチマークとして、MT-Bench・HarmBench・AIR-Bench・HELM-Safetyなどが広く使われています。
規制動向として、EU AI ActやNIST AI Risk Management Framework(AI RMF)は高リスクAIシステムに対して安全性評価の実施を義務付けており、エンタープライズ導入時には内部・第三者評価の証跡を求められる場面が増えています。
参考情報・出典
- ▸NIST AI Risk Management Framework (AI RMF)— NIST(参照日: 2026-02-26)
- ▸Responsible Scaling Policy – Anthropic— Anthropic(参照日: 2026-02-26)