トークンとは？わかりやすく解説

一文定義

トークンとは、LLMがテキストを処理する最小単位です。単語・部分文字列・文字などに相当し、APIの利用コストや処理できる文章の長さ（コンテキストウィンドウ）はトークン数で計算されます。

詳細解説

トークン（Token）とは、LLMがテキストを処理する際に扱う基本単位のことです。単語そのものではなく、サブワード（部分的な単語）やバイトペアエンコーディング（BPE）で分割された単位が一般的です。

トークンを理解することが重要なのは、LLMのAPIコスト、処理速度、そしてコンテキストウィンドウ（一度に処理できる上限量）がすべてトークン数によって決まるためです。

英語では1トークン≒0.75単語が目安で、日本語は1文字が1〜2トークン程度になるケースが多く、英語と比べてトークン消費が多くなる傾向があります。GPT-4oでは128,000トークン（約30万字相当）のコンテキストウィンドウをサポートしています。コストを抑えるには、不要なテキストを除くプロンプト設計が有効です。

参考情報・出典

▸
Tokenizer - OpenAI Cookbook— OpenAI（参照日: 2026-02-25）
▸
Tokenization - Hugging Face— Hugging Face（参照日: 2026-02-25）

トークン

一文定義

詳細解説

参考情報・出典

関連用語

AIスキルだけでなく、自分と未来を再設計する