知識蒸留とは？わかりやすく解説

一文定義

知識蒸留とは、大規模モデル（教師）の知識を小規模モデル（生徒）に転移させてモデルを軽量化する技術で、エッジデバイス展開に有効です。

詳細解説

知識蒸留（Knowledge Distillation）とは、学習済みの大規模モデル（教師モデル）の出力確率分布を「教師信号」として使い、小規模モデル（生徒モデル）を訓練することで、性能を維持しつつモデルを大幅に圧縮する技術です。

知識蒸留が有効な理由は、LLMは性能が高い一方でメモリ・計算資源が膨大なため、スマートフォンやエッジデバイスへの組み込みや、推論コストの削減が求められる現場では小型化が必須だからです。通常の圧縮と異なり、教師モデルのソフトラベル（各クラスへの確率分布）を使うことで、ハードラベル（正解のみ）では失われる「暗黙の知識」を生徒モデルに伝達できます。

代表例としてMeta LLaMAシリーズのSmallモデル、GoogleのDistilBERT等があります。量子化やLoRAと組み合わせることでさらなる軽量化が可能で、実務では複数の手法を組み合わせてモデルの「コスト対性能比」を最適化します。

参考情報・出典

▸
Distilling the Knowledge in a Neural Network— arXiv / Hinton et al.（参照日: 2026-02-26）
▸
DistilBERT, a distilled version of BERT— arXiv / Hugging Face（参照日: 2026-02-26）

知識蒸留

一文定義

詳細解説

参考情報・出典

関連用語

AIスキルだけでなく、自分と未来を再設計する