実装

QLoRA

キューロラ

一文定義

LoRAと量子化を組み合わせた効率的ファインチューニング手法。4bit量子化で凍結したベースモデルにLoRAアダプタを追加し、一般的なGPU1枚で大規模LLMをファインチューニング可能にする。

詳細解説

QLoRA(Quantized Low-Rank Adaptation)とは、LoRA(低ランク適応)と4bit量子化を組み合わせた、メモリ効率の極めて高いファインチューニング手法です。Dettmersらが2023年に発表し、従来はA100 80GB等の高価なGPUが必要だった65Bパラメータ規模のLLMファインチューニングを、単一の48GB GPU(RTX A6000等)で実現可能にしました。

技術的な仕組みとして、QLoRAは3つの革新を組み合わせています。(1)4-bit NormalFloat(NF4)量子化:ベースモデルの重みを4bitに量子化。情報理論的に最適な量子化形式を使用し、FP16と比較してほぼ精度劣化なしでメモリ使用量を約1/4に削減、(2)二重量子化(Double Quantization):量子化パラメータ自体もさらに量子化することで、追加のメモリ削減を実現、(3)ページングオプティマイザ:GPUメモリが不足した場合にCPUメモリにページアウトするメカニズムで、メモリスパイクによるOOMエラーを防止します。

学習プロセスとして、(1)ベースモデルの重みを4bit NF4に量子化して凍結、(2)各Transformerレイヤーに小さなLoRAアダプタ(FP16)を追加、(3)学習中はLoRAアダプタのパラメータのみを更新。凍結された4bit重みは推論にのみ使用、(4)勾配計算時にはNF4重みをFP16に一時的に復元(デクオンタイズ)して正確な勾配を計算、という流れで動作します。

実用上の意義として、QLoRAの登場により「消費者向けGPU(RTX 3090/4090の24GB VRAM)で大規模LLMをファインチューニングする」ことが現実的になりました。Hugging Faceのbitsandbytesライブラリ・PEFT・TRLと組み合わせることで、数行のコード追加でQLoRAファインチューニングが可能です。実験では、QLoRAでファインチューニングしたモデルはフルFP16ファインチューニングと同等の性能を達成しています。

参考情報・出典

最終更新: 2026-02-26← 用語集一覧へ

AIスキルだけでなく、自分と未来を再設計する

生成AI活用力を体系的に習得し、自己理解・キャリアデザインを深め、志を同じくする仲間と共に学ぶ場がここにあります。

AIリブートアカデミーを見る