QLoRAとは？わかりやすく解説

一文定義

LoRAと量子化を組み合わせた効率的ファインチューニング手法。4bit量子化で凍結したベースモデルにLoRAアダプタを追加し、一般的なGPU1枚で大規模LLMをファインチューニング可能にする。

詳細解説

QLoRA（Quantized Low-Rank Adaptation）とは、LoRA（低ランク適応）と4bit量子化を組み合わせた、メモリ効率の極めて高いファインチューニング手法です。Dettmersらが2023年に発表し、従来はA100 80GB等の高価なGPUが必要だった65Bパラメータ規模のLLMファインチューニングを、単一の48GB GPU（RTX A6000等）で実現可能にしました。

技術的な仕組みとして、QLoRAは3つの革新を組み合わせています。(1)4-bit NormalFloat（NF4）量子化：ベースモデルの重みを4bitに量子化。情報理論的に最適な量子化形式を使用し、FP16と比較してほぼ精度劣化なしでメモリ使用量を約1/4に削減、(2)二重量子化（Double Quantization）：量子化パラメータ自体もさらに量子化することで、追加のメモリ削減を実現、(3)ページングオプティマイザ：GPUメモリが不足した場合にCPUメモリにページアウトするメカニズムで、メモリスパイクによるOOMエラーを防止します。

学習プロセスとして、(1)ベースモデルの重みを4bit NF4に量子化して凍結、(2)各Transformerレイヤーに小さなLoRAアダプタ（FP16）を追加、(3)学習中はLoRAアダプタのパラメータのみを更新。凍結された4bit重みは推論にのみ使用、(4)勾配計算時にはNF4重みをFP16に一時的に復元（デクオンタイズ）して正確な勾配を計算、という流れで動作します。

実用上の意義として、QLoRAの登場により「消費者向けGPU（RTX 3090/4090の24GB VRAM）で大規模LLMをファインチューニングする」ことが現実的になりました。Hugging Faceのbitsandbytesライブラリ・PEFT・TRLと組み合わせることで、数行のコード追加でQLoRAファインチューニングが可能です。実験では、QLoRAでファインチューニングしたモデルはフルFP16ファインチューニングと同等の性能を達成しています。

参考情報・出典

▸
QLoRA: Efficient Finetuning of Quantized Large Language Models— arXiv / Dettmers et al.（参照日: 2026-02-26）
▸
bitsandbytes – Hugging Face Documentation— Hugging Face（参照日: 2026-02-26）

QLoRA

一文定義

詳細解説

参考情報・出典

関連用語

AIスキルだけでなく、自分と未来を再設計する