一文定義
継続的バッチ処理とは、LLM推論サーバーがリクエストを動的にバッチ化し、GPU利用率を最大化する技術で、トークン生成中に新しいリクエストをバッチに追加してスループットを大幅に向上させます。
詳細解説
継続的バッチ処理(Continuous Batching)とは、LLM推論時に複数のリクエストを動的にまとめて処理することで、GPUの利用率とシステム全体のスループットを最大化する技術です。vLLMの開発で広く知られるようになりました。
従来の静的バッチ処理では、バッチ内の全リクエストが完了するまで新しいリクエストを受け付けられませんでした。生成する文章の長さがリクエストごとに異なるため、短い応答が完了してもGPUアイドル時間が発生していました。
継続的バッチ処理(別名:インフライトバッチング)では、あるリクエストの生成が1トークン完了するたびに、待機中の新しいリクエストをバッチに追加できます。これにより、GPUが常に最大限に活用され、サービス全体のスループットを数倍向上できます。
Yu et al.(2022)の「Orca」論文でこの概念が提唱され、vLLMがPagedAttentionと組み合わせて実用化しました。現在はvLLM・TensorRT-LLM・Text Generation Inferenceなどの主要推論フレームワークに標準実装されています。本番環境でのLLMサービング最適化の基本技術です。
参考情報・出典
- ▸Orca: A Distributed Serving System for Transformer-Based Generative Models— USENIX OSDI 2022 / Yu et al.(参照日: 2026-02-26)
- ▸vLLM: Easy, Fast, and Cheap LLM Serving with PagedAttention— arXiv(参照日: 2026-02-26)