一文定義
数百〜数千トークンにわたる長い思考連鎖を生成してから回答する推論スタイル。OpenAI o1・DeepSeek-R1等が採用し、複雑な推論タスクでの精度を大幅に向上させる。
詳細解説
Long CoT(Long Chain of Thought:長い思考連鎖)とは、LLMが最終回答を生成する前に、数百〜数千トークンにわたる詳細な思考プロセスを内部的に生成する推論スタイルです。従来のChain of Thought(CoT)プロンプティングが数ステップの短い推論を促すものだったのに対し、Long CoTはモデル自体が強化学習を通じて「長く考える」能力を獲得したもので、OpenAI o1・DeepSeek-R1等の推論特化型モデルの中核技術です。
従来のCoTとの違いとして、(1)生成方法:従来のCoTはプロンプトで「ステップバイステップで考えてください」と指示する外部的手法。Long CoTはRLHFやGRPO等の強化学習でモデル自体に内在化された能力、(2)長さ:従来のCoTは数十〜数百トークン。Long CoTは数百〜数万トークンに及ぶ場合がある、(3)自己修正:Long CoTでは思考の途中で「待って、この方法は間違っている」と自ら修正し、別のアプローチを試行する挙動が観察される、(4)探索的思考:単一の解法パスではなく、複数のアプローチを試し比較する探索的な思考パターンが見られます。
技術的メカニズムとして、Long CoTモデルは(1)問題の分解:複雑な問題を小さなサブ問題に分解、(2)段階的推論:各サブ問題を順次解決、(3)検証:中間結果を自己検証し、矛盾を検出、(4)バックトラッキング:誤りを発見した場合に前のステップに戻って別の方法を試行、(5)統合:部分的な結果を統合して最終回答を生成、というプロセスを実行します。
トレードオフとして、Long CoTは推論精度を大幅に向上させますが、(1)レイテンシの増加(思考トークン分の生成時間)、(2)コストの増加(入出力トークン消費量の増大)、(3)簡単な問題への過剰思考(不要に長い思考で効率が低下)があるため、問題の難易度に応じてLong CoTモデルと通常モデルを使い分けるルーティングが実用上重要です。
参考情報・出典
- ▸Learning to Reason with LLMs— OpenAI(参照日: 2026-02-26)
- ▸DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning— arXiv / DeepSeek(参照日: 2026-02-26)