評価

モデルアラインメントコスト

モデルアラインメントコスト

一文定義

モデルアラインメントコストとは、安全性・倫理的制約を加えることで生じるモデルの能力低下で、ハルシネーション対策や有害コンテンツフィルタリングが有用な回答の抑制につながるトレードオフを指します。

詳細解説

モデルアラインメントコスト（Model Alignment Tax）とは、LLMに安全性・倫理的制約・人間の価値観への整合（アライメント）を施す過程で、モデルの一部の能力や回答の有用性が低下してしまうトレードオフ現象を指す概念です。

「税金（tax）」という比喩は、アライメントが安全性という利益をもたらす一方、能力という「コスト」を課すことを表しています。

具体的な現象として、有害なコンテンツを避けようとしすぎて、医学・法律・セキュリティなど合法的なトピックまで拒否するオーバーリファーサル（過剰拒否）、RLHFで「無難な回答」を学習しすぎることによる冗長性・断定力の低下、フィルタリングによるクリエイティブな表現の制限などがあります。

Ouyang et al.（2022）のInstructGPT論文はRLHFによるアライメントを実証しつつ、SFT単独よりも性能が下がる領域があることも示しました。近年はDPOやCritique-based手法により、アライメントコストを最小化しながら安全性を高めるアプローチが研究されています。

参考情報・出典

▸
Training language models to follow instructions with human feedback (InstructGPT)— arXiv / OpenAI (Ouyang et al., 2022)（参照日: 2026-02-26）
▸
The Alignment Tax: How RLHF Can Hurt Your Model— Hugging Face Blog（参照日: 2026-02-26）

最終更新: 2026-02-26← 用語集一覧へ

関連用語

アライメント（AI Alignment）

アライメント

RLHF（人間のフィードバックによる強化学習）

アールエルエイチエフ（にんげんのフィードバックによるきょうかがくしゅう）

DPO（直接選好最適化）

ディーピーオー

ベンチマーク

ベンチマーク

責任あるAI

せきにんあるエーアイ

AIスキルだけでなく、自分と未来を再設計する

生成AI活用力を体系的に習得し、自己理解・キャリアデザインを深め、志を同じくする仲間と共に学ぶ場がここにあります。

AIリブートアカデミーを見る

無料相談を申し込む