一文定義
インストラクションフォロウィングとは、ユーザーの指示を正確に理解・実行するLLMの能力です。SFTとRLHFによる訓練で向上し、ChatGPTの成功の鍵となった現代LLMの基本能力です。
詳細解説
インストラクションフォロウィング(Instruction Following)とは、LLMがユーザーや開発者の指示(インストラクション)を正確に理解し、その意図に沿った適切な出力を生成する能力です。「〇〇について200字で要約して」「敬語で書き直して」「コードのバグを直して」といった具体的な指示に、期待通りに応答できる能力を指します。
インストラクションフォロウィングが重要な理由は、事前学習だけのLLMは「次のトークンを予測する」能力には優れますが、人間の意図した指示に従うことは苦手であるためです。GPT-3はインストラクションフォロウィングが弱く、プロンプトエンジニアリングで補う必要がありました。InstructGPT(2022年)でSFT+RLHFによるfine-tuningが導入されてから、LLMが直感的な指示に従えるようになり、ChatGPTの爆発的普及につながりました。
評価指標として、IFEval(Instruction Following Evaluation)というベンチマークがあり、具体的な制約(「必ず英語で」「箇条書き5点で」等)に対する従守率を測定します。instruction-tuningはこの能力を高めるためのfine-tuning手法全般を指します。日本語での指示理解・実行は英語より難しく、日本語instruction-followingの向上が国内AI活用の重要課題です。
参考情報・出典
- ▸Training language models to follow instructions with human feedback (InstructGPT)— arXiv / Ouyang et al. / OpenAI (2022)(参照日: 2026-02-26)
- ▸IFEval: Instruction-Following Evaluation for Large Language Models— arXiv / Zhou et al. / Google (2023)(参照日: 2026-02-26)