一文定義
大規模モデルを小型・高速化する技術群の総称。量子化・プルーニング・知識蒸留・低ランク近似を含み、エッジデバイスや低コスト環境でのAI実行を可能にする。
詳細解説
モデル圧縮(Model Compression)とは、大規模なニューラルネットワークのサイズを削減し、推論速度を向上させ、メモリ使用量を削減する技術群の総称です。数十億パラメータを持つLLMを、精度をできるだけ維持しながらモバイルデバイス・エッジ環境・低コストGPUで実行可能にするための不可欠な技術として、AIの実用化において中核的な役割を果たしています。
主要な圧縮手法として、(1)量子化(Quantization):モデルの重みを高精度(FP32/FP16)から低精度(INT8/INT4/NF4)に変換。メモリ使用量を1/2〜1/8に削減。GPTQ・AWQ・bitsandbytes等の手法がLLMで広く使用、(2)プルーニング(Pruning):重要度の低いパラメータ(重みが0に近い接続等)を除去し、モデルを疎(スパース)にする。構造化プルーニング(レイヤー・ヘッド単位)と非構造化プルーニング(個別の重み単位)がある、(3)知識蒸留(Knowledge Distillation):大きなモデル(教師)の出力分布を小さなモデル(生徒)に学習させ、知識を転写。Google GemmaやMicrosoftのPhi等はこの手法を活用、(4)低ランク近似(Low-Rank Approximation):重み行列を低ランクの行列積で近似し、パラメータ数を削減。LoRA・QLoRAのベースとなる数学的手法があります。
手法の組み合わせとして、実際のLLMデプロイでは複数の圧縮手法を組み合わせるのが一般的です。例えば、「知識蒸留で70B→7Bに小型化」→「QLoRAでファインチューニング」→「GPTQ/AWQで4bit量子化」→「llama.cppでCPU推論」というパイプラインにより、数百GBのモデルを数GBのファイルで配布・実行することが可能になります。
精度とサイズのトレードオフとして、圧縮手法には必ず精度劣化のリスクが伴います。量子化では4bitまでなら比較的精度が維持されますが、2〜3bitでは顕著な劣化が見られます。プルーニングでは除去率30%程度までは精度維持が可能ですが、それ以上では急速に劣化します。用途に応じた適切な圧縮レベルの選択が重要です。
参考情報・出典
- ▸A Survey of Model Compression and Acceleration for Deep Neural Networks— arXiv / Cheng et al.(参照日: 2026-02-26)
- ▸Deep Compression: Compressing Deep Neural Networks with Pruning, Trained Quantization and Huffman Coding— arXiv / Han et al.(参照日: 2026-02-26)