一文定義
トークンストリーミングとは、LLMが生成したトークンを完了を待たずにリアルタイムで順次クライアントに送信する技術で、ChatGPT・Claude等のチャットUIで採用され体感レイテンシを大幅に改善します。
詳細解説
トークンストリーミングとは、LLMが全テキストの生成を完了するまで待つのではなく、生成されたトークンをリアルタイムで順次クライアント側に送信する技術です。HTTP上ではServer-Sent Events(SSE)やWebSocketを通じて実装されます。
ユーザー体験の観点から非常に重要です。LLMが100トークンの応答を生成するのに5秒かかる場合、ストリーミングなしでは5秒間真っ白な画面が続きますが、ストリーミングありでは最初のトークンが0.1〜0.5秒で表示され始め、ユーザーは即座にフィードバックを得られます。この「初回トークン到達時間(TTFT: Time To First Token)」がAIプロダクトの体感品質を大きく左右します。
OpenAI API・Anthropic API・Google Gemini APIなど主要LLM APIはすべてストリーミングオプションを提供しています。実装時は部分的なJSON文字列の処理・エラーハンドリング・キャンセル処理など、ストリーミング特有の考慮事項があります。LangChainやLlamaIndexなどのフレームワークはストリーミング対応のコールバック機能を提供しており、AI UXの設計において欠かせない基本技術となっています。
参考情報・出典
- ▸OpenAI API Streaming Documentation— OpenAI(参照日: 2026-02-26)
- ▸Anthropic Streaming Messages Documentation— Anthropic(参照日: 2026-02-26)