一文定義
レイテンシとは、LLMが入力を受け取ってから最初のトークンを返すまでの時間(TTFT: Time to First Token)です。ユーザー体験に直結する重要な性能指標で、streamingやprompt-cachingで改善できます。
詳細解説
レイテンシ(Latency)とは、リクエストを送信してからレスポンスを受け取るまでの遅延時間のことです。LLMのAPI文脈では特に「TTFT(Time to First Token:最初のトークンが返るまでの時間)」と「スループット(1秒あたりのトークン生成数)」が重要な指標です。
レイテンシが重要な理由は、ユーザー体験(UX)に直結するためです。TTFT が1秒以上かかると、ユーザーは「遅い」と感じ離脱率が上がります。特にリアルタイム音声会話やオートコンプリートなど低遅延が必須のアプリケーションでは、レイテンシの最適化が機能要件となります。一方、バッチ処理や非同期タスクではスループット(コストあたりの処理量)の方が重要です。
レイテンシ改善の主な手法として、①streamingによる最初のトークンから順次表示(体感速度の改善)、②prompt-cachingによるプレフィックス再利用(TTFT削減)、③speculative-decodingによる生成速度向上、④quantizationとモデル軽量化、⑤リージョン最適化(サーバーとクライアントの地理的距離短縮)などがあります。OpenAIやAnthropicのAPIダッシュボードではTTFT・スループットの統計が確認でき、llmopsの監視指標の中心です。
参考情報・出典
- ▸OpenAI API Rate Limits and Performance— OpenAI(参照日: 2026-02-26)
- ▸Anthropic API Performance Documentation— Anthropic(参照日: 2026-02-26)