一文定義
ストリーミングとは、LLMが生成した文字・トークンをリアルタイムに順次送信する応答方式で、ユーザーが全文生成を待たずに即座に読み始められるUXを実現します。
詳細解説
ストリーミング(Streaming)とは、LLMがテキストを生成しながら、生成済みのトークンを逐次クライアントに送信する応答方式です。通常の「バッチ応答」では全文生成が完了してから一括送信されますが、ストリーミングでは文字が生成されるたびにリアルタイムで表示されます。
ストリーミングが重要な理由は、LLMの応答生成には数秒〜数十秒かかることがあり、その間ユーザーを待機させると体験が悪化するためです。ストリーミングにより「考えながら話している」ような自然なUXを実現でき、ユーザーの認知負荷を下げて読む準備ができます。
技術的にはServer-Sent Events(SSE)またはWebSocketを使って実装されることが多く、OpenAI APIでは「stream: true」パラメーター、Anthropic APIでは「stream」オプションで有効化できます。フロントエンドではストリームデータをチャンク単位で受信してUIに逐次描画します。ただし、ストリーミング中にエラーが発生した場合のハンドリングや、構造化出力(Structured Output)との併用など、実装上の考慮点もあります。
参考情報・出典
- ▸Streaming - OpenAI API Documentation— OpenAI(参照日: 2026-02-26)
- ▸Streaming Messages - Anthropic API Documentation— Anthropic(参照日: 2026-02-26)