一文定義
PagedAttentionを採用した高スループットLLM推論ライブラリ。OpenAI互換APIサーバーを提供し、本番環境でのLLMサービングに広く使われる。
詳細解説
vLLM(Virtual LLM)とは、UC BerkeleyのSkyLab研究グループが開発した高スループット・低レイテンシのLLM推論・サービングライブラリです。PagedAttentionという革新的なKVキャッシュ管理技術を採用し、従来比2〜24倍のスループット向上を実現しました。2023年の論文発表後、本番LLMサービングのデファクトスタンダードの一つとなっています。
核心技術であるPagedAttentionは、OSのページング仮想メモリ管理をKVキャッシュに適用したアイデアです。従来のKVキャッシュは各リクエストに連続したGPUメモリブロックを事前確保するため最大70%のメモリが断片化・浪費されていました。PagedAttentionは非連続な固定サイズページ(ブロック)でKVキャッシュを管理し、メモリ使用効率を飛躍的に向上させます。これにより同一GPUで処理できる並行リクエスト数が大幅に増加します。
主要機能として、(1)OpenAI互換APIサーバー:vllm.entrypoints.openaiで起動でき、既存OpenAI SDKクライアントをそのまま利用可能、(2)継続的バッチ処理(Continuous Batching):リクエストが完了次第新規リクエストを動的に追加してGPU使用率を最大化、(3)テンソル並列・パイプライン並列:複数GPU・複数ノードへの分散推論をサポート、(4)広範なモデルサポート:LLaMA・Mistral・Qwen・Gemma・Command R等の主要モデルに対応、(5)量子化サポート:AWQ・GPTQ・FP8量子化に対応してメモリ削減と高速化を両立があります。
Triton Inference ServerやTGI(Text Generation Inference)と比較した場合、vLLMはPagedAttentionによるメモリ効率と動的バッチングで特に高同時接続環境で優位性を発揮します。
参考情報・出典
- ▸Efficient Memory Management for Large Language Model Serving with PagedAttention – arXiv:2309.06180— Kwon et al. / UC Berkeley(参照日: 2026-02-26)
- ▸vLLM Documentation— vLLM(参照日: 2026-02-26)