一文定義
量子化とは、LLMのモデルパラメータを高精度な浮動小数点数(FP32等)から低ビット数(INT8・INT4等)に変換することで、メモリ消費と推論コストを削減する技術です。
詳細解説
量子化(Quantization)とは、ニューラルネットワークのパラメータ(重み)を表現するデータ型を、高精度な浮動小数点数(FP32: 32ビット)からより低いビット数(INT8: 8ビット、INT4: 4ビット等)に変換することで、モデルサイズと推論時のメモリ使用量・計算量を削減する技術です。
なぜ量子化が必要かというと、70億パラメータ(7B)のモデルをFP32で保持するだけで約28GBのVRAMが必要なのに対し、INT4量子化では約4GBに圧縮でき、一般的なGPUでも動作させられるためです。
量子化にはトレードオフがあり、ビット数を下げるほどモデルの精度がわずかに低下する可能性があります。GPTQ、AWQ、bitsandbytesなどのライブラリが代表的な量子化手法を提供しており、LoRAと組み合わせるQLoRAはファインチューニングの低コスト化に広く使われています。
参考情報・出典
- ▸Quantization - Hugging Face Documentation— Hugging Face(参照日: 2026-02-25)
- ▸GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers— arXiv(参照日: 2026-02-25)
最終更新: 2026-02-25← 用語集一覧へ