一文定義
APIリクエストごとの最大トークン数(入力+出力)の上限値。コスト管理と長文処理の設計に直結する制約。
詳細解説
トークン制限(Token Limit)とは、LLMのAPIリクエスト1回あたりに処理できるトークン数の上限値です。入力トークン(プロンプト・会話履歴・文書)と出力トークン(生成テキスト)の合計がこの制限以内に収まる必要があります。上限を超えるとエラーが返されるか、テキストが途中で切り捨てられます。
コンテキスト長(モデルが参照できる最大トークン数)とは密接に関連しますが、APIによっては入力上限・出力上限を別々に設定できる場合があります。例えば「max_tokens」パラメータで生成する最大出力トークン数を制限することで、コスト管理と応答時間の制御が可能です。
トークン制限の実務上の影響として、(1)長い会話履歴の管理(古いメッセージをサマリー化して圧縮する)、(2)長文ドキュメントの分割処理(チャンキング戦略)、(3)バッチ処理時のコスト試算、(4)ストリーミング応答の設計(ユーザー体験向上のため出力をリアルタイム表示)が挙げられます。
コスト計算の基本として、多くのAPIは「入力1Kトークンあたり$X、出力1Kトークンあたり$Y」という課金体系を採用しており、出力トークンの単価が入力より高い傾向があります。プロンプトキャッシュ機能(Anthropic・OpenAIが提供)を活用すると、繰り返し利用するシステムプロンプトのトークンコストを最大90%削減できます。
参考情報・出典
- ▸Token usage and pricing – OpenAI Documentation— OpenAI(参照日: 2026-02-26)
- ▸Pricing – Anthropic Documentation— Anthropic(参照日: 2026-02-26)