一文定義
ジェイルブレイクとは、AIの安全制限を回避して禁止されたコンテンツを生成させる攻撃手法です。巧妙なプロンプト操作でモデルのガードレールを突破しようとします。
詳細解説
ジェイルブレイク(Jailbreak)とは、LLMに設けられた安全制限・コンテンツポリシーを回避し、本来は拒否されるべき有害なコンテンツや情報を生成させようとする攻撃的なプロンプト操作の総称です。スマートフォンのOSロック解除(ジェイルブレイク)になぞらえて名付けられました。
代表的な手法として、「DAN(Do Anything Now)」プロンプト(制限のない別人格を演じさせる)、「架空のシナリオ」への誘導(「フィクションとして書いて」「学術目的で」等)、多言語切り替えによるフィルター回避、段階的な誘導(徐々に有害な内容へ誘い込む)などがあります。
AIサービス提供者はジェイルブレイク対策として、RLHF・Constitutional AIなどによるアライメント強化、プロンプト入力のフィルタリング、出力の安全性チェックなどを多層的に実施しています。しかし攻撃側と防御側のいたちごっこが続いており、完全な防御は困難です。企業がLLMをサービスに組み込む際は、悪用リスクを考慮したシステムプロンプト設計と、ユーザー入力の適切なバリデーションが重要です。OWASP LLM Top 10ではPrompt Injection(LLM01)として関連リスクがまとめられています。
参考情報・出典
- ▸OWASP Top 10 for LLM Applications— OWASP(参照日: 2026-02-25)
- ▸Anthropic's Approach to AI Safety— Anthropic(参照日: 2026-02-25)