トークン制限とは？わかりやすく解説

一文定義

APIリクエストごとの最大トークン数（入力＋出力）の上限値。コスト管理と長文処理の設計に直結する制約。

詳細解説

トークン制限（Token Limit）とは、LLMのAPIリクエスト1回あたりに処理できるトークン数の上限値です。入力トークン（プロンプト・会話履歴・文書）と出力トークン（生成テキスト）の合計がこの制限以内に収まる必要があります。上限を超えるとエラーが返されるか、テキストが途中で切り捨てられます。

コンテキスト長（モデルが参照できる最大トークン数）とは密接に関連しますが、APIによっては入力上限・出力上限を別々に設定できる場合があります。例えば「max_tokens」パラメータで生成する最大出力トークン数を制限することで、コスト管理と応答時間の制御が可能です。

トークン制限の実務上の影響として、(1)長い会話履歴の管理（古いメッセージをサマリー化して圧縮する）、(2)長文ドキュメントの分割処理（チャンキング戦略）、(3)バッチ処理時のコスト試算、(4)ストリーミング応答の設計（ユーザー体験向上のため出力をリアルタイム表示）が挙げられます。

コスト計算の基本として、多くのAPIは「入力1Kトークンあたり$X、出力1Kトークンあたり$Y」という課金体系を採用しており、出力トークンの単価が入力より高い傾向があります。プロンプトキャッシュ機能（Anthropic・OpenAIが提供）を活用すると、繰り返し利用するシステムプロンプトのトークンコストを最大90%削減できます。

参考情報・出典

▸
Token usage and pricing – OpenAI Documentation— OpenAI（参照日: 2026-02-26）
▸
Pricing – Anthropic Documentation— Anthropic（参照日: 2026-02-26）

トークン制限

一文定義

詳細解説

参考情報・出典

関連用語

AIスキルだけでなく、自分と未来を再設計する