一文定義
SFTとは、人間が作成した「指示→望ましい回答」ペアのデータセットを使ってLLMを教師あり学習でファインチューニングする手法です。RLHFの前段階として広く用いられます。
詳細解説
SFT(Supervised Fine-Tuning:教師ありファインチューニング)とは、人間のアノテーターが作成した「プロンプト(指示)→高品質な回答」のペアからなるデータセットを用いて、事前学習済みのLLMをファインチューニングする手法です。
なぜSFTが使われるかというと、事前学習だけのモデルは「次のトークン予測」を学んでおり、人間の指示に従う能力が不十分なためです。SFTにより、モデルは「どのような形式・スタイルで答えるべきか」を学習します。
RLHFのパイプラインでは、SFTが最初のステップとして位置づけられます。SFTで基本的な指示追従能力を付与した後、人間の比較評価データで報酬モデルを学習し、最後にRLHFで整合性を高める流れが一般的です。また、SFTのみで高品質なモデルを作る場合(e.g. LLaMAのファインチューニング)にも利用されます。
参考情報・出典
- ▸Training language models to follow instructions with human feedback— arXiv / OpenAI(参照日: 2026-02-25)
- ▸Supervised fine-tuning - Hugging Face— Hugging Face(参照日: 2026-02-25)
最終更新: 2026-02-25← 用語集一覧へ