基礎概念

知識蒸留

知識蒸留

一文定義

知識蒸留とは、大規模モデル(教師)の知識を小規模モデル(生徒)に転移させてモデルを軽量化する技術で、エッジデバイス展開に有効です。

詳細解説

知識蒸留(Knowledge Distillation)とは、学習済みの大規模モデル(教師モデル)の出力確率分布を「教師信号」として使い、小規模モデル(生徒モデル)を訓練することで、性能を維持しつつモデルを大幅に圧縮する技術です。

知識蒸留が有効な理由は、LLMは性能が高い一方でメモリ・計算資源が膨大なため、スマートフォンやエッジデバイスへの組み込みや、推論コストの削減が求められる現場では小型化が必須だからです。通常の圧縮と異なり、教師モデルのソフトラベル(各クラスへの確率分布)を使うことで、ハードラベル(正解のみ)では失われる「暗黙の知識」を生徒モデルに伝達できます。

代表例としてMeta LLaMAシリーズのSmallモデル、GoogleのDistilBERT等があります。量子化やLoRAと組み合わせることでさらなる軽量化が可能で、実務では複数の手法を組み合わせてモデルの「コスト対性能比」を最適化します。

参考情報・出典

最終更新: 2026-02-26← 用語集一覧へ

AIスキルだけでなく、自分と未来を再設計する

生成AI活用力を体系的に習得し、自己理解・キャリアデザインを深め、志を同じくする仲間と共に学ぶ場がここにあります。

AIリブートアカデミーを見る