一文定義
PPO(Proximal Policy Optimization)とは、方策の更新幅をクリッピングで制限して安定した学習を実現する強化学習アルゴリズムです。ChatGPTやClaudeのRLHF訓練に広く採用されてきましたが、近年はDPOへの移行も進んでいます。
詳細解説
PPO(Proximal Policy Optimization:近接方策最適化)とは、OpenAIのSchulmanらが2017年に発表した強化学習アルゴリズムです。方策勾配法(Policy Gradient)の問題点(学習が不安定、更新幅が大きすぎると崩壊)を、クリッピングと呼ばれるシンプルな制約で解決しました。現在の方策と前の方策の比率を一定範囲にクリップすることで、1回の更新で方策が大きく変わりすぎることを防ぎます。
PPOが重要な理由は、ロボティクス・ゲーム・LLMアライメントなど幅広い強化学習タスクで安定した性能を示す汎用アルゴリズムとして確立されており、特にRLHFによるLLMのアライメント訓練の標準アルゴリズムとして採用されてきたためです。ChatGPT・InstructGPT・Claude初期版はPPOベースのRLHFで訓練されました。
実装上の課題として、PPOはreward-modelの訓練・参照モデルの維持・複数モデルの同時実行など複雑なインフラが必要で、ハイパーパラメータ調整も難しい点があります。この複雑さを解消するために開発されたdpoは、PPOなしで人間の好みデータから直接最適化するアプローチとして2023年以降急速に普及しています。PPOは報酬モデルを持つフルRLHFパイプラインでは現在も使われています。
参考情報・出典
- ▸Proximal Policy Optimization Algorithms— arXiv / Schulman et al. / OpenAI (2017)(参照日: 2026-02-26)
- ▸Proximal policy optimization - Wikipedia— Wikipedia(参照日: 2026-02-26)