一文定義
強化学習とは、エージェントが試行錯誤しながら報酬を最大化する行動を学習するAI手法です。RLHFを通じてLLMのアラインメントに応用され、現代の生成AIの品質を支える基盤技術です。
詳細解説
強化学習(Reinforcement Learning、RL)とは、エージェントが環境と相互作用しながら、累積報酬を最大化する行動方策(Policy)を学習するAI手法です。教師あり学習のように正解データを与えるのではなく、行動の結果として得られる報酬シグナルだけを手がかりに学習します。
強化学習が生成AIの分野で特に注目されている理由は、RLHF(人間フィードバックからの強化学習)の基盤技術として機能しているためです。ChatGPTやClaudeなどのLLMは、事前学習後にRLHFで人間の好みに合わせた回答を生成するよう調整されており、強化学習なしには現在の高品質な対話AIは実現しませんでした。
代表的なアルゴリズムとして、DQN(Deep Q-Network)、PPO(Proximal Policy Optimization)、SAC(Soft Actor-Critic)などがあります。LLM文脈ではPPOが広く使われています。また近年は報酬モデルを使わないDPO(Direct Preference Optimization)や、プロセス報酬モデル(PRM)を使ったSTaRなども登場し、LLMの推論能力向上に活用されています。
参考情報・出典
- ▸Reinforcement Learning: An Introduction (2nd ed.)— Sutton & Barto (2018)(参照日: 2026-02-26)
- ▸Reinforcement learning - Wikipedia— Wikipedia(参照日: 2026-02-26)