一文定義
レッドチーミングとは、AIシステムの安全性・脆弱性を攻撃者視点で意図的に探索・評価するプロセスで、デプロイ前の安全評価に不可欠です。
詳細解説
レッドチーミング(Red Teaming)とは、サイバーセキュリティ分野で軍事演習の「赤軍(敵役)」に由来する概念をAI安全性評価に応用したもので、AIシステムに対して悪意ある攻撃者の視点から意図的に有害・不正なアウトプットを引き出す試みを行い、脆弱性を特定するプロセスです。
AIにおけるレッドチーミングが重要な理由は、LLMは標準的なベンチマークでは発見しにくいエッジケースの脆弱性(有害コンテンツ生成・プライバシー侵害・偏見増幅など)を持つことがあり、デプロイ前に網羅的に脆弱性を洗い出すことがユーザー保護と法的リスク回避に直結するからです。
実施方法として、①人間の専門家チームが手動で多角的な攻撃シナリオを試みる手法と、②別のLLMを使ってジェイルブレイクやプロンプトインジェクションを自動生成する「自動レッドチーミング」があります。AnthropicはClaude開発において継続的なレッドチーミングを実施しており、OpenAIもGPT-4Oリリース前に外部機関との協力でシステムカード評価を行っています。
参考情報・出典
- ▸Anthropic's Approach to AI Safety— Anthropic(参照日: 2026-02-26)
- ▸GPT-4 System Card— OpenAI(参照日: 2026-02-26)
最終更新: 2026-02-26← 用語集一覧へ