実装

量子化

りょうしか

一文定義

量子化とは、LLMのモデルパラメータを高精度な浮動小数点数(FP32等)から低ビット数(INT8・INT4等)に変換することで、メモリ消費と推論コストを削減する技術です。

詳細解説

量子化(Quantization)とは、ニューラルネットワークのパラメータ(重み)を表現するデータ型を、高精度な浮動小数点数(FP32: 32ビット)からより低いビット数(INT8: 8ビット、INT4: 4ビット等)に変換することで、モデルサイズと推論時のメモリ使用量・計算量を削減する技術です。

なぜ量子化が必要かというと、70億パラメータ(7B)のモデルをFP32で保持するだけで約28GBのVRAMが必要なのに対し、INT4量子化では約4GBに圧縮でき、一般的なGPUでも動作させられるためです。

量子化にはトレードオフがあり、ビット数を下げるほどモデルの精度がわずかに低下する可能性があります。GPTQ、AWQ、bitsandbytesなどのライブラリが代表的な量子化手法を提供しており、LoRAと組み合わせるQLoRAはファインチューニングの低コスト化に広く使われています。

参考情報・出典

最終更新: 2026-02-25← 用語集一覧へ

AIスキルだけでなく、自分と未来を再設計する

生成AI活用力を体系的に習得し、自己理解・キャリアデザインを深め、志を同じくする仲間と共に学ぶ場がここにあります。

AIリブートアカデミーを見る