一文定義
DeepSeek-R1が採用した強化学習手法。参照モデル不要でグループ内の相対報酬を使い、PPOより効率的にLLMの推論能力を向上させる。
詳細解説
GRPO(Group Relative Policy Optimization)とは、DeepSeek社が提案した大規模言語モデル向けの強化学習アルゴリズムです。DeepSeek-R1の学習で中心的な役割を果たし、PPO(Proximal Policy Optimization)と比較してメモリ効率・計算効率を大幅に改善しながら、LLMの推論能力を効果的に向上させる手法として注目されています。
従来手法との違いとして、PPOベースのRLHFでは(1)報酬モデル(Reward Model)の学習、(2)価値関数(Value Function / Critic)の学習、(3)参照モデル(Reference Model)の保持、が必要であり、LLMの3〜4倍のモデルをメモリに載せる必要がありました。GRPOはこれらの要素を大幅に簡略化し、効率的な学習を実現します。
技術的な仕組みとして、GRPOは(1)グループサンプリング:各プロンプトに対して複数(例:8〜64個)の回答候補をバッチ生成、(2)グループ内相対報酬:グループ内の回答を報酬でランキングし、グループ平均からの相対的な優劣をアドバンテージとして計算。個別の価値関数(Critic)が不要、(3)参照モデル不要:KLダイバージェンスの正則化を近似的に計算し、別途参照モデルを保持する必要を排除、(4)クリッピング:PPOと同様のクリッピング機構でポリシー更新の安定性を確保、という流れで動作します。
DeepSeek-R1での活用として、GRPOは「ルールベースの報酬」と組み合わせて使用されました。数学問題の正解判定やコードの実行結果判定など、人間のアノテーション不要で自動的に報酬を付与できるタスクでGRPOを適用し、大規模な推論能力の向上を実現しています。この「報酬モデルなしのRL」アプローチは、LLMの学習コスト削減に大きく貢献しています。
参考情報・出典
- ▸DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning— arXiv / DeepSeek(参照日: 2026-02-26)
- ▸DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models— arXiv / DeepSeek(参照日: 2026-02-26)