一文定義
トークンとは、LLMがテキストを処理する最小単位です。単語・部分文字列・文字などに相当し、APIの利用コストや処理できる文章の長さ(コンテキストウィンドウ)はトークン数で計算されます。
詳細解説
トークン(Token)とは、LLMがテキストを処理する際に扱う基本単位のことです。単語そのものではなく、サブワード(部分的な単語)やバイトペアエンコーディング(BPE)で分割された単位が一般的です。
トークンを理解することが重要なのは、LLMのAPIコスト、処理速度、そしてコンテキストウィンドウ(一度に処理できる上限量)がすべてトークン数によって決まるためです。
英語では1トークン≒0.75単語が目安で、日本語は1文字が1〜2トークン程度になるケースが多く、英語と比べてトークン消費が多くなる傾向があります。GPT-4oでは128,000トークン(約30万字相当)のコンテキストウィンドウをサポートしています。コストを抑えるには、不要なテキストを除くプロンプト設計が有効です。
参考情報・出典
- ▸Tokenizer - OpenAI Cookbook— OpenAI(参照日: 2026-02-25)
- ▸Tokenization - Hugging Face— Hugging Face(参照日: 2026-02-25)
最終更新: 2026-02-25← 用語集一覧へ