一文定義
憲法的AIトレーニングとは、Anthropicが開発したアライメント手法で、AIが自己の回答を人権・倫理原則(憲法)に照らして自己批判・修正することで、人間フィードバックへの依存を大幅に削減できます。
詳細解説
憲法的AIトレーニング(Constitutional AI Training、CAI)とは、Anthropicが2022年に発表した、LLMを人間の意図・価値観と整合させるためのアライメント学習手法です。
**従来のRLHFとの違い:** RLHFは人間のフィードバックを大量に必要としますが、CAIでは代わりに「憲法(Constitution)」——倫理的原則・人権基準・有害コンテンツポリシー等をまとめたルールセット——をAI自身の自己評価に使います。
**CAIのトレーニングプロセス:**
**フェーズ1:SL-CAI(教師あり学習段階)** 1. モデルに有害になりやすいプロンプトを与える 2. モデル自身が回答を生成 3. 憲法の原則に照らして「何が問題か」を自己批判させる 4. 批判を踏まえて回答を修正 5. 修正済み回答をファインチューニングデータとして使用
**フェーズ2:RL-CAI(強化学習段階)** 1. モデルが同一プロンプトに複数の回答案を生成 2. 別のAIモデル(フィードバックAI)が憲法に基づいてランキング 3. そのランキングから報酬モデルを学習 4. PPOで最終モデルをファインチューニング
**CAIの利点:** - 人間のラベラーが有害コンテンツを大量に見る負担を軽減 - スケーラブルな監視(AIが自分自身を評価) - 原則の透明化(どんな価値観でトレーニングしたかが明示的)
Anthropicはこの手法を発展させ、Claudeモデルの開発に継続的に活用しています。RLAIFとも深く関連しています。
参考情報・出典
- ▸Constitutional AI: Harmlessness from AI Feedback— arXiv / Anthropic(参照日: 2026-02-26)