一文定義
モデルアラインメントコストとは、安全性・倫理的制約を加えることで生じるモデルの能力低下で、ハルシネーション対策や有害コンテンツフィルタリングが有用な回答の抑制につながるトレードオフを指します。
詳細解説
モデルアラインメントコスト(Model Alignment Tax)とは、LLMに安全性・倫理的制約・人間の価値観への整合(アライメント)を施す過程で、モデルの一部の能力や回答の有用性が低下してしまうトレードオフ現象を指す概念です。
「税金(tax)」という比喩は、アライメントが安全性という利益をもたらす一方、能力という「コスト」を課すことを表しています。
具体的な現象として、有害なコンテンツを避けようとしすぎて、医学・法律・セキュリティなど合法的なトピックまで拒否するオーバーリファーサル(過剰拒否)、RLHFで「無難な回答」を学習しすぎることによる冗長性・断定力の低下、フィルタリングによるクリエイティブな表現の制限などがあります。
Ouyang et al.(2022)のInstructGPT論文はRLHFによるアライメントを実証しつつ、SFT単独よりも性能が下がる領域があることも示しました。近年はDPOやCritique-based手法により、アライメントコストを最小化しながら安全性を高めるアプローチが研究されています。
参考情報・出典
- ▸Training language models to follow instructions with human feedback (InstructGPT)— arXiv / OpenAI (Ouyang et al., 2022)(参照日: 2026-02-26)
- ▸The Alignment Tax: How RLHF Can Hurt Your Model— Hugging Face Blog(参照日: 2026-02-26)