一文定義
知識蒸留とは、大規模モデル(教師)の知識を小規模モデル(生徒)に転移させてモデルを軽量化する技術で、エッジデバイス展開に有効です。
詳細解説
知識蒸留(Knowledge Distillation)とは、学習済みの大規模モデル(教師モデル)の出力確率分布を「教師信号」として使い、小規模モデル(生徒モデル)を訓練することで、性能を維持しつつモデルを大幅に圧縮する技術です。
知識蒸留が有効な理由は、LLMは性能が高い一方でメモリ・計算資源が膨大なため、スマートフォンやエッジデバイスへの組み込みや、推論コストの削減が求められる現場では小型化が必須だからです。通常の圧縮と異なり、教師モデルのソフトラベル(各クラスへの確率分布)を使うことで、ハードラベル(正解のみ)では失われる「暗黙の知識」を生徒モデルに伝達できます。
代表例としてMeta LLaMAシリーズのSmallモデル、GoogleのDistilBERT等があります。量子化やLoRAと組み合わせることでさらなる軽量化が可能で、実務では複数の手法を組み合わせてモデルの「コスト対性能比」を最適化します。
参考情報・出典
- ▸Distilling the Knowledge in a Neural Network— arXiv / Hinton et al.(参照日: 2026-02-26)
- ▸DistilBERT, a distilled version of BERT— arXiv / Hugging Face(参照日: 2026-02-26)
最終更新: 2026-02-26← 用語集一覧へ