一文定義
RLHFとは、人間が回答の優劣を評価したデータを使って報酬モデルを学習させ、強化学習でLLMを人間の好みに合わせる技術です。ChatGPTの開発に採用されています。
詳細解説
RLHF(Reinforcement Learning from Human Feedback:人間のフィードバックによる強化学習)とは、人間の評価者がLLMの複数の回答を比較・採点したデータをもとに「報酬モデル(Reward Model)」を学習し、その報酬モデルを使ってLLMを強化学習で最適化する手法です。
なぜRLHFが重要かというと、事前学習済みのLLMは流暢な文章を生成できても、有害なコンテンツや誤情報を出力する可能性があり、人間の価値観や安全基準に沿った回答に調整するためです。OpenAIのInstructGPT論文(2022)でその有効性が示され、ChatGPTの基盤技術となりました。
RLHFのプロセスは一般的に「①SFT(教師あり微調整)→②報酬モデル学習→③PPOで強化学習」の3段階です。近年はDPO(Direct Preference Optimization)のようにRLHFをより安定して実装する代替手法も登場しています。
参考情報・出典
- ▸Training language models to follow instructions with human feedback(InstructGPT論文)— arXiv / OpenAI(参照日: 2026-02-25)
- ▸Reinforcement learning from human feedback - Wikipedia— Wikipedia(参照日: 2026-02-25)
最終更新: 2026-02-25← 用語集一覧へ