実装

モデル圧縮(Model Compression)

モデルあっしゅく

一文定義

大規模モデルを小型・高速化する技術群の総称。量子化・プルーニング・知識蒸留・低ランク近似を含み、エッジデバイスや低コスト環境でのAI実行を可能にする。

詳細解説

モデル圧縮(Model Compression)とは、大規模なニューラルネットワークのサイズを削減し、推論速度を向上させ、メモリ使用量を削減する技術群の総称です。数十億パラメータを持つLLMを、精度をできるだけ維持しながらモバイルデバイス・エッジ環境・低コストGPUで実行可能にするための不可欠な技術として、AIの実用化において中核的な役割を果たしています。

主要な圧縮手法として、(1)量子化(Quantization):モデルの重みを高精度(FP32/FP16)から低精度(INT8/INT4/NF4)に変換。メモリ使用量を1/2〜1/8に削減。GPTQ・AWQ・bitsandbytes等の手法がLLMで広く使用、(2)プルーニング(Pruning):重要度の低いパラメータ(重みが0に近い接続等)を除去し、モデルを疎(スパース)にする。構造化プルーニング(レイヤー・ヘッド単位)と非構造化プルーニング(個別の重み単位)がある、(3)知識蒸留(Knowledge Distillation):大きなモデル(教師)の出力分布を小さなモデル(生徒)に学習させ、知識を転写。Google GemmaやMicrosoftのPhi等はこの手法を活用、(4)低ランク近似(Low-Rank Approximation):重み行列を低ランクの行列積で近似し、パラメータ数を削減。LoRA・QLoRAのベースとなる数学的手法があります。

手法の組み合わせとして、実際のLLMデプロイでは複数の圧縮手法を組み合わせるのが一般的です。例えば、「知識蒸留で70B→7Bに小型化」→「QLoRAでファインチューニング」→「GPTQ/AWQで4bit量子化」→「llama.cppでCPU推論」というパイプラインにより、数百GBのモデルを数GBのファイルで配布・実行することが可能になります。

精度とサイズのトレードオフとして、圧縮手法には必ず精度劣化のリスクが伴います。量子化では4bitまでなら比較的精度が維持されますが、2〜3bitでは顕著な劣化が見られます。プルーニングでは除去率30%程度までは精度維持が可能ですが、それ以上では急速に劣化します。用途に応じた適切な圧縮レベルの選択が重要です。

参考情報・出典

最終更新: 2026-02-26← 用語集一覧へ

AIスキルだけでなく、自分と未来を再設計する

生成AI活用力を体系的に習得し、自己理解・キャリアデザインを深め、志を同じくする仲間と共に学ぶ場がここにあります。

AIリブートアカデミーを見る