基礎概念

憲法的AIトレーニング

ケンポウテキAIトレーニング

一文定義

憲法的AIトレーニングとは、Anthropicが開発したアライメント手法で、AIが自己の回答を人権・倫理原則(憲法)に照らして自己批判・修正することで、人間フィードバックへの依存を大幅に削減できます。

詳細解説

憲法的AIトレーニング(Constitutional AI Training、CAI)とは、Anthropicが2022年に発表した、LLMを人間の意図・価値観と整合させるためのアライメント学習手法です。

**従来のRLHFとの違い:** RLHFは人間のフィードバックを大量に必要としますが、CAIでは代わりに「憲法(Constitution)」——倫理的原則・人権基準・有害コンテンツポリシー等をまとめたルールセット——をAI自身の自己評価に使います。

**CAIのトレーニングプロセス:**

**フェーズ1:SL-CAI(教師あり学習段階)** 1. モデルに有害になりやすいプロンプトを与える 2. モデル自身が回答を生成 3. 憲法の原則に照らして「何が問題か」を自己批判させる 4. 批判を踏まえて回答を修正 5. 修正済み回答をファインチューニングデータとして使用

**フェーズ2:RL-CAI(強化学習段階)** 1. モデルが同一プロンプトに複数の回答案を生成 2. 別のAIモデル(フィードバックAI)が憲法に基づいてランキング 3. そのランキングから報酬モデルを学習 4. PPOで最終モデルをファインチューニング

**CAIの利点:** - 人間のラベラーが有害コンテンツを大量に見る負担を軽減 - スケーラブルな監視(AIが自分自身を評価) - 原則の透明化(どんな価値観でトレーニングしたかが明示的)

Anthropicはこの手法を発展させ、Claudeモデルの開発に継続的に活用しています。RLAIFとも深く関連しています。

参考情報・出典

最終更新: 2026-02-26← 用語集一覧へ

AIスキルだけでなく、自分と未来を再設計する

生成AI活用力を体系的に習得し、自己理解・キャリアデザインを深め、志を同じくする仲間と共に学ぶ場がここにあります。

AIリブートアカデミーを見る