一文定義
Constitutional AIとは、AIに原則リスト(Constitution)を与えて自己批判・修正させることで、安全で有益な応答を訓練するAnthropicが考案した手法です。
詳細解説
Constitutional AI(コンスティテューショナルAI)とは、Anthropicが2022年に提案した、LLMの安全性・有益性を高めるための学習手法です。従来のRLHF(人間のフィードバックによる強化学習)を進化させ、AIモデル自身が原則リスト(Constitution)に基づいて自分の応答を批評・修正するプロセスを学習に組み込みます。
なぜConstitutional AIが重要かというと、大規模な人間によるフィードバック収集のコストと限界を超えつつ、より一貫した安全性を実現できるためです。原則リストには「有害なコンテンツを含まない」「欺かない」「人権を尊重する」などの指針が含まれ、AIはこれらを参照しながら自己批判(critique)と修正(revision)を繰り返します。
Anthropicが開発するClaudeはこのConstitutional AIの手法を応用して訓練されており、アライメント(AIと人間の価値観の一致)の実践的な事例として注目されています。AIガバナンスの観点からも、透明性の高い安全性確保の仕組みとして評価されています。
参考情報・出典
- ▸Constitutional AI: Harmlessness from AI Feedback— arXiv / Anthropic(参照日: 2026-02-26)
- ▸Claude's Character - Anthropic— Anthropic(参照日: 2026-02-26)