GRPO（Group Relative Policy Optimization）とは？わかりやすく解説

一文定義

DeepSeek-R1が採用した強化学習手法。参照モデル不要でグループ内の相対報酬を使い、PPOより効率的にLLMの推論能力を向上させる。

詳細解説

GRPO（Group Relative Policy Optimization）とは、DeepSeek社が提案した大規模言語モデル向けの強化学習アルゴリズムです。DeepSeek-R1の学習で中心的な役割を果たし、PPO（Proximal Policy Optimization）と比較してメモリ効率・計算効率を大幅に改善しながら、LLMの推論能力を効果的に向上させる手法として注目されています。

従来手法との違いとして、PPOベースのRLHFでは(1)報酬モデル（Reward Model）の学習、(2)価値関数（Value Function / Critic）の学習、(3)参照モデル（Reference Model）の保持、が必要であり、LLMの3〜4倍のモデルをメモリに載せる必要がありました。GRPOはこれらの要素を大幅に簡略化し、効率的な学習を実現します。

技術的な仕組みとして、GRPOは(1)グループサンプリング：各プロンプトに対して複数（例：8〜64個）の回答候補をバッチ生成、(2)グループ内相対報酬：グループ内の回答を報酬でランキングし、グループ平均からの相対的な優劣をアドバンテージとして計算。個別の価値関数（Critic）が不要、(3)参照モデル不要：KLダイバージェンスの正則化を近似的に計算し、別途参照モデルを保持する必要を排除、(4)クリッピング：PPOと同様のクリッピング機構でポリシー更新の安定性を確保、という流れで動作します。

DeepSeek-R1での活用として、GRPOは「ルールベースの報酬」と組み合わせて使用されました。数学問題の正解判定やコードの実行結果判定など、人間のアノテーション不要で自動的に報酬を付与できるタスクでGRPOを適用し、大規模な推論能力の向上を実現しています。この「報酬モデルなしのRL」アプローチは、LLMの学習コスト削減に大きく貢献しています。

参考情報・出典

▸
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning— arXiv / DeepSeek（参照日: 2026-02-26）
▸
DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models— arXiv / DeepSeek（参照日: 2026-02-26）

GRPO（Group Relative Policy Optimization）

一文定義

詳細解説

参考情報・出典

関連用語

AIスキルだけでなく、自分と未来を再設計する