憲法的AIトレーニングとは？わかりやすく解説

一文定義

憲法的AIトレーニングとは、Anthropicが開発したアライメント手法で、AIが自己の回答を人権・倫理原則（憲法）に照らして自己批判・修正することで、人間フィードバックへの依存を大幅に削減できます。

憲法的AIトレーニング（Constitutional AI Training、CAI）とは、Anthropicが2022年に発表した、LLMを人間の意図・価値観と整合させるためのアライメント学習手法です。

**従来のRLHFとの違い：** RLHFは人間のフィードバックを大量に必要としますが、CAIでは代わりに「憲法（Constitution）」——倫理的原則・人権基準・有害コンテンツポリシー等をまとめたルールセット——をAI自身の自己評価に使います。

**CAIのトレーニングプロセス：**

**フェーズ1：SL-CAI（教師あり学習段階）** 1. モデルに有害になりやすいプロンプトを与える 2. モデル自身が回答を生成 3. 憲法の原則に照らして「何が問題か」を自己批判させる 4. 批判を踏まえて回答を修正 5. 修正済み回答をファインチューニングデータとして使用

**フェーズ2：RL-CAI（強化学習段階）** 1. モデルが同一プロンプトに複数の回答案を生成 2. 別のAIモデル（フィードバックAI）が憲法に基づいてランキング 3. そのランキングから報酬モデルを学習 4. PPOで最終モデルをファインチューニング

**CAIの利点：** - 人間のラベラーが有害コンテンツを大量に見る負担を軽減 - スケーラブルな監視（AIが自分自身を評価） - 原則の透明化（どんな価値観でトレーニングしたかが明示的）

Anthropicはこの手法を発展させ、Claudeモデルの開発に継続的に活用しています。RLAIFとも深く関連しています。

▸
Constitutional AI: Harmlessness from AI Feedback— arXiv / Anthropic（参照日: 2026-02-26）