モデル

SFT(教師ありファインチューニング)

エスエフティー(きょうしありファインチューニング)

一文定義

SFTとは、人間が作成した「指示→望ましい回答」ペアのデータセットを使ってLLMを教師あり学習でファインチューニングする手法です。RLHFの前段階として広く用いられます。

詳細解説

SFT(Supervised Fine-Tuning:教師ありファインチューニング)とは、人間のアノテーターが作成した「プロンプト(指示)→高品質な回答」のペアからなるデータセットを用いて、事前学習済みのLLMをファインチューニングする手法です。

なぜSFTが使われるかというと、事前学習だけのモデルは「次のトークン予測」を学んでおり、人間の指示に従う能力が不十分なためです。SFTにより、モデルは「どのような形式・スタイルで答えるべきか」を学習します。

RLHFのパイプラインでは、SFTが最初のステップとして位置づけられます。SFTで基本的な指示追従能力を付与した後、人間の比較評価データで報酬モデルを学習し、最後にRLHFで整合性を高める流れが一般的です。また、SFTのみで高品質なモデルを作る場合(e.g. LLaMAのファインチューニング)にも利用されます。

参考情報・出典

最終更新: 2026-02-25← 用語集一覧へ

AIスキルだけでなく、自分と未来を再設計する

生成AI活用力を体系的に習得し、自己理解・キャリアデザインを深め、志を同じくする仲間と共に学ぶ場がここにあります。

AIリブートアカデミーを見る