モデル圧縮（Model Compression）とは？わかりやすく解説

一文定義

大規模モデルを小型・高速化する技術群の総称。量子化・プルーニング・知識蒸留・低ランク近似を含み、エッジデバイスや低コスト環境でのAI実行を可能にする。

詳細解説

モデル圧縮（Model Compression）とは、大規模なニューラルネットワークのサイズを削減し、推論速度を向上させ、メモリ使用量を削減する技術群の総称です。数十億パラメータを持つLLMを、精度をできるだけ維持しながらモバイルデバイス・エッジ環境・低コストGPUで実行可能にするための不可欠な技術として、AIの実用化において中核的な役割を果たしています。

主要な圧縮手法として、(1)量子化（Quantization）：モデルの重みを高精度（FP32/FP16）から低精度（INT8/INT4/NF4）に変換。メモリ使用量を1/2〜1/8に削減。GPTQ・AWQ・bitsandbytes等の手法がLLMで広く使用、(2)プルーニング（Pruning）：重要度の低いパラメータ（重みが0に近い接続等）を除去し、モデルを疎（スパース）にする。構造化プルーニング（レイヤー・ヘッド単位）と非構造化プルーニング（個別の重み単位）がある、(3)知識蒸留（Knowledge Distillation）：大きなモデル（教師）の出力分布を小さなモデル（生徒）に学習させ、知識を転写。Google GemmaやMicrosoftのPhi等はこの手法を活用、(4)低ランク近似（Low-Rank Approximation）：重み行列を低ランクの行列積で近似し、パラメータ数を削減。LoRA・QLoRAのベースとなる数学的手法があります。

手法の組み合わせとして、実際のLLMデプロイでは複数の圧縮手法を組み合わせるのが一般的です。例えば、「知識蒸留で70B→7Bに小型化」→「QLoRAでファインチューニング」→「GPTQ/AWQで4bit量子化」→「llama.cppでCPU推論」というパイプラインにより、数百GBのモデルを数GBのファイルで配布・実行することが可能になります。

精度とサイズのトレードオフとして、圧縮手法には必ず精度劣化のリスクが伴います。量子化では4bitまでなら比較的精度が維持されますが、2〜3bitでは顕著な劣化が見られます。プルーニングでは除去率30%程度までは精度維持が可能ですが、それ以上では急速に劣化します。用途に応じた適切な圧縮レベルの選択が重要です。

参考情報・出典

▸
A Survey of Model Compression and Acceleration for Deep Neural Networks— arXiv / Cheng et al.（参照日: 2026-02-26）
▸
Deep Compression: Compressing Deep Neural Networks with Pruning, Trained Quantization and Huffman Coding— arXiv / Han et al.（参照日: 2026-02-26）

モデル圧縮（Model Compression）

一文定義

詳細解説

参考情報・出典

関連用語

AIスキルだけでなく、自分と未来を再設計する