基礎概念

GRPO(Group Relative Policy Optimization)

ジーアールピーオー

一文定義

DeepSeek-R1が採用した強化学習手法。参照モデル不要でグループ内の相対報酬を使い、PPOより効率的にLLMの推論能力を向上させる。

詳細解説

GRPO(Group Relative Policy Optimization)とは、DeepSeek社が提案した大規模言語モデル向けの強化学習アルゴリズムです。DeepSeek-R1の学習で中心的な役割を果たし、PPO(Proximal Policy Optimization)と比較してメモリ効率・計算効率を大幅に改善しながら、LLMの推論能力を効果的に向上させる手法として注目されています。

従来手法との違いとして、PPOベースのRLHFでは(1)報酬モデル(Reward Model)の学習、(2)価値関数(Value Function / Critic)の学習、(3)参照モデル(Reference Model)の保持、が必要であり、LLMの3〜4倍のモデルをメモリに載せる必要がありました。GRPOはこれらの要素を大幅に簡略化し、効率的な学習を実現します。

技術的な仕組みとして、GRPOは(1)グループサンプリング:各プロンプトに対して複数(例:8〜64個)の回答候補をバッチ生成、(2)グループ内相対報酬:グループ内の回答を報酬でランキングし、グループ平均からの相対的な優劣をアドバンテージとして計算。個別の価値関数(Critic)が不要、(3)参照モデル不要:KLダイバージェンスの正則化を近似的に計算し、別途参照モデルを保持する必要を排除、(4)クリッピング:PPOと同様のクリッピング機構でポリシー更新の安定性を確保、という流れで動作します。

DeepSeek-R1での活用として、GRPOは「ルールベースの報酬」と組み合わせて使用されました。数学問題の正解判定やコードの実行結果判定など、人間のアノテーション不要で自動的に報酬を付与できるタスクでGRPOを適用し、大規模な推論能力の向上を実現しています。この「報酬モデルなしのRL」アプローチは、LLMの学習コスト削減に大きく貢献しています。

参考情報・出典

最終更新: 2026-02-26← 用語集一覧へ

AIスキルだけでなく、自分と未来を再設計する

生成AI活用力を体系的に習得し、自己理解・キャリアデザインを深め、志を同じくする仲間と共に学ぶ場がここにあります。

AIリブートアカデミーを見る