一文定義
報酬モデルとは、人間の好みや評価基準を学習してLLMの出力にスコア(報酬)を付けるモデルです。RLHFの中核コンポーネントで、ChatGPTやClaudeなどの高品質な対話AIの訓練に不可欠です。
詳細解説
報酬モデル(Reward Model、RM)とは、人間の評価者が「どちらの回答が良いか」を比較・評価したデータを使って訓練された、LLMの出力品質を数値スコアで評価するモデルです。RLHFパイプラインにおいて、強化学習エージェント(LLM)が最大化すべき報酬関数の役割を果たします。
報酬モデルが重要な理由は、LLMが生成する何百万もの出力すべてに人間がリアルタイムでフィードバックを与えることは不可能であり、人間の好みを模倣した報酬モデルがその代替として機能するためです。比較的少量の人間による比較データ(A vs Bどちらが良いか)から訓練された報酬モデルが、以後のRLHFループで大量の出力を自動評価します。
報酬モデルの訓練では、同じプロンプトへの複数の応答を人間が順位付けし(相対評価)、ブラッドリー・テリーモデル等でスコア化した比較データが使われます。課題として「報酬ハッキング(Reward Hacking)」があります—LLMが人間の意図ではなく報酬モデルの欠陥を悪用した高スコア出力を生成する現象です。これへの対策としてconstitutional-aiではAIが自己批判・修正する手法が採用されています。また報酬モデルを使わないDPO(Direct Preference Optimization)も普及しています。
参考情報・出典
- ▸Deep Reinforcement Learning from Human Preferences— arXiv / Christiano et al. (2017)(参照日: 2026-02-26)
- ▸Training language models to follow instructions with human feedback (InstructGPT)— arXiv / Ouyang et al. / OpenAI (2022)(参照日: 2026-02-26)