基礎概念

トークン制限

トークンせいげん

一文定義

APIリクエストごとの最大トークン数(入力+出力)の上限値。コスト管理と長文処理の設計に直結する制約。

詳細解説

トークン制限(Token Limit)とは、LLMのAPIリクエスト1回あたりに処理できるトークン数の上限値です。入力トークン(プロンプト・会話履歴・文書)と出力トークン(生成テキスト)の合計がこの制限以内に収まる必要があります。上限を超えるとエラーが返されるか、テキストが途中で切り捨てられます。

コンテキスト長(モデルが参照できる最大トークン数)とは密接に関連しますが、APIによっては入力上限・出力上限を別々に設定できる場合があります。例えば「max_tokens」パラメータで生成する最大出力トークン数を制限することで、コスト管理と応答時間の制御が可能です。

トークン制限の実務上の影響として、(1)長い会話履歴の管理(古いメッセージをサマリー化して圧縮する)、(2)長文ドキュメントの分割処理(チャンキング戦略)、(3)バッチ処理時のコスト試算、(4)ストリーミング応答の設計(ユーザー体験向上のため出力をリアルタイム表示)が挙げられます。

コスト計算の基本として、多くのAPIは「入力1Kトークンあたり$X、出力1Kトークンあたり$Y」という課金体系を採用しており、出力トークンの単価が入力より高い傾向があります。プロンプトキャッシュ機能(Anthropic・OpenAIが提供)を活用すると、繰り返し利用するシステムプロンプトのトークンコストを最大90%削減できます。

参考情報・出典

最終更新: 2026-02-26← 用語集一覧へ

AIスキルだけでなく、自分と未来を再設計する

生成AI活用力を体系的に習得し、自己理解・キャリアデザインを深め、志を同じくする仲間と共に学ぶ場がここにあります。

AIリブートアカデミーを見る