一文定義
プロセス報酬モデルとは、最終回答だけでなく推論の各ステップを評価する報酬モデルで、数学・コーディング・論理推論においてLLMの精度を大幅に向上させます。
詳細解説
プロセス報酬モデル(Process Reward Model:PRM)とは、LLMが生成する推論ステップの一つひとつに対してスコアを付ける報酬モデルです。従来の結果報酬モデル(ORM)が最終的な回答の正誤だけを評価するのに対し、PRMは途中の思考過程の正しさも評価します。
PRMが重要な理由は、複雑な数学の証明やコーディング問題のように、正しい答えに至るプロセスそのものが重要なタスクで大きな効果を発揮するためです。OpenAIのo1シリーズやDeepSeek-R1の学習において、PRMはモデルが誤った推論チェーンを辿らないよう誘導する役割を担っています。
実装上は、人間のアノテーターが各推論ステップを「正しい/誤り」と採点したデータセット(PRM800K等)を構築し、その上で報酬モデルを学習させます。この報酬モデルをRLHFやGRPOのトレーニングシグナルとして使うことで、推論能力が大幅に向上します。Best-of-N探索と組み合わせて、複数の回答候補の中から最も推論プロセスが優秀なものを選ぶ用途にも使われます。
参考情報・出典
- ▸Let's Verify Step by Step— arXiv / Lightman et al. (2023) / OpenAI(参照日: 2026-02-26)
- ▸OpenAI PRM800K Dataset— OpenAI(参照日: 2026-02-26)