一文定義
モデルサービングとは、学習済みモデルをAPI経由で提供するインフラ・システムです。vLLM・TGI(Text Generation Inference)・Tritonなどがバッチ処理・メモリ管理・スケーリングを最適化したLLM向けフレームワークとして普及しています。
詳細解説
モデルサービング(Model Serving)とは、学習・評価済みの機械学習モデルをHTTP/gRPC等のAPIとして外部アプリケーションから利用可能にするシステム・インフラの構築・運用実践です。MLOps・llmopsの中心的な工程であり、推論リクエストを受け取り、モデルで処理し、結果を返す一連のパイプラインを担います。
モデルサービングが重要な理由は、どれほど優れたモデルを作っても、実際にAPIとして使えなければビジネス価値を生まないためです。特にLLMはモデルサイズが大きく、メモリ管理・バッチ処理・並列推論などの最適化が性能に直結します。
LLM特化のサービングフレームワークとして、vLLM(PagedAttentionによる効率的なKVキャッシュ管理、最大スループット重視)、TGI・Text Generation Inference(Hugging Face製、ストリーミング・量子化対応)、Triton Inference Server(NVIDIA製、汎用的な本番向け)などがあります。推論の最適化として、バッチ処理(Continuous Batching)、テンソル並列化(複数GPUへの分散)、speculative-decodingの統合、量子化(quantization)適用などが重要です。クラウドでのオートスケーリングやlatency SLAの管理もモデルサービングの重要な課題です。
参考情報・出典
- ▸Efficient Memory Management for Large Language Model Serving with PagedAttention (vLLM)— arXiv / Kwon et al. (2023)(参照日: 2026-02-26)
- ▸Text Generation Inference - Hugging Face— Hugging Face(参照日: 2026-02-26)