モデル

RLHF(人間のフィードバックによる強化学習)

アールエルエイチエフ(にんげんのフィードバックによるきょうかがくしゅう)

一文定義

RLHFとは、人間が回答の優劣を評価したデータを使って報酬モデルを学習させ、強化学習でLLMを人間の好みに合わせる技術です。ChatGPTの開発に採用されています。

詳細解説

RLHF(Reinforcement Learning from Human Feedback:人間のフィードバックによる強化学習)とは、人間の評価者がLLMの複数の回答を比較・採点したデータをもとに「報酬モデル(Reward Model)」を学習し、その報酬モデルを使ってLLMを強化学習で最適化する手法です。

なぜRLHFが重要かというと、事前学習済みのLLMは流暢な文章を生成できても、有害なコンテンツや誤情報を出力する可能性があり、人間の価値観や安全基準に沿った回答に調整するためです。OpenAIのInstructGPT論文(2022)でその有効性が示され、ChatGPTの基盤技術となりました。

RLHFのプロセスは一般的に「①SFT(教師あり微調整)→②報酬モデル学習→③PPOで強化学習」の3段階です。近年はDPO(Direct Preference Optimization)のようにRLHFをより安定して実装する代替手法も登場しています。

参考情報・出典

最終更新: 2026-02-25← 用語集一覧へ

AIスキルだけでなく、自分と未来を再設計する

生成AI活用力を体系的に習得し、自己理解・キャリアデザインを深め、志を同じくする仲間と共に学ぶ場がここにあります。

AIリブートアカデミーを見る