一文定義
VRAMとはGPU上の専用メモリ(Video RAM)で、LLMの推論・学習時にモデルの重みを保持するために必要です。容量がモデルサイズの実行可能性を決定します。
詳細解説
VRAM(Video RAM / グラフィックスメモリ)とは、GPU(グラフィックス処理ユニット)上に搭載された専用メモリです。一般的なCPUメモリ(RAM)より高帯域幅であり、大量の並列演算を必要とするLLMの推論・学習に不可欠なリソースです。
VRAMがLLM活用において重要な理由は、モデルの重み(パラメータ)はすべてVRAMに読み込まれる必要があり、VRAM容量がモデルのローカル実行可能性の上限を決めるからです。例えば、7Bパラメータのモデルをfloat16精度で実行する場合、約14GBのVRAMが必要になります。量子化(int8・int4など)でVRAM使用量を削減することで、より小さいGPUでの実行が可能になります。
代表的なGPUとVRAM容量:NVIDIA RTX 4090(24GB)・H100(80GB)・A100(40GB/80GB)。クラウド推論APIを使う場合はVRAMを意識する必要はありませんが、ローカルでのLLM実行(Ollamaやllama.cppなど)やファインチューニングを行う際は、VRAMがボトルネックになります。
参考情報・出典
- ▸NVIDIA GPU Memory Documentation— NVIDIA(参照日: 2026-02-26)
- ▸VRAM - Wikipedia— Wikipedia(参照日: 2026-02-26)
最終更新: 2026-02-26← 用語集一覧へ