実装

インストラクションデータセット

インストラクションデータセット

一文定義

インストラクションデータセットとは、LLMの指示追従能力を学習させるための指示文と期待される回答のペアからなるデータセットで、Alpaca・FLAN・Dolly・ShareGPTが代表例であり、SFTとRLHFの品質を大きく左右します。

詳細解説

インストラクションデータセット(Instruction Dataset)とは、大規模言語モデルに「指示を理解して適切に従う」能力を学習させるための訓練データです。「指示文(Instruction)」と「期待される回答(Response)」のペアで構成され、場合によってはコンテキスト(Input)も含みます。

代表的なデータセットを紹介します。Stanford Alpaca(2023年)はGPT-3.5を使ってself-instructにより5万2千件の指示-回答ペアを生成した先駆的データセットです。FLAN Collection(Google)は1,800以上のNLPタスクをチェーンオブソートなどで拡張した大規模コレクションです。Dolly(Databricks)はコマーシャル利用可能なライセンスで人手注釈した1万5千件のデータセットです。ShareGPTはChatGPTとの実際の会話ログを収集したデータセットで、多様な会話形式を含みます。

データ品質はファインチューニング後のモデル性能に直接影響します。LIMA(2023年)の研究では、1,000件の高品質な例だけでも大量の低品質データに匹敵する性能が得られることを示し、「品質 > 数量」の重要性を示しました。

データセット作成手法には、人手収集、Self-Instruct(LLMによる自動生成)、蒸留(強力なLLMの出力を教師として収集)、合成データ生成などがあります。指示のカバレッジ・多様性・難易度バランスが重要な設計要素です。

参考情報・出典

最終更新: 2026-02-26← 用語集一覧へ

AIスキルだけでなく、自分と未来を再設計する

生成AI活用力を体系的に習得し、自己理解・キャリアデザインを深め、志を同じくする仲間と共に学ぶ場がここにあります。

AIリブートアカデミーを見る