一文定義
大規模モデル(教師)の知識を小規模モデル(生徒)に転移する技術。知識蒸留の実践的応用でモデル軽量化に使用される。
詳細解説
モデル蒸留(Model Distillation)とは、学習済みの大規模モデル(教師モデル:Teacher Model)が持つ知識を、より小規模・軽量なモデル(生徒モデル:Student Model)に転移する技術です。Hintonらが2015年に提案した「知識蒸留(Knowledge Distillation)」の実践的応用であり、推論コスト・レイテンシ・メモリ消費を削減しながらできる限り性能を維持することを目的とします。
蒸留の主要アプローチとして、(1)ソフトラベル蒸留:教師モデルの出力確率分布(ソフトターゲット)を訓練信号として使用。クラス間の類似関係を暗黙的に学習できる(「猫」が誤分類される場合、「犬」への確率が「車」より高いという情報が含まれる)、(2)中間層の特徴量蒸留:教師モデルの中間層の表現を生徒モデルが模倣するよう学習、(3)データセット蒸留:教師モデルが生成した出力データを生徒モデルの学習データとして使用します。
LLMへの応用として、大規模LLM(GPT-4・Claude等)に高品質な回答を生成させ、そのデータで小規模モデル(Llama 7B等)をファインチューニングする「LLM蒸留」が普及しています。MetaのLlama・AlpacaなどのモデルはGPT-4からの蒸留データで品質向上が図られています。
OpenAIは2025年にGPT-4oからo1・o3への知識転移を含む「モデル蒸留API」を提供しており、企業が自社ユースケースに最適化した小型モデルを作れるサービスを展開しています。推論特化モデル(o1・o3)の思考過程データを学習させることでより小さなモデルの推論能力向上が実証されています。
参考情報・出典
- ▸Distilling the Knowledge in a Neural Network— arXiv / Hinton et al. (2015)(参照日: 2026-02-26)
- ▸Model distillation – OpenAI Documentation— OpenAI(参照日: 2026-02-26)