一文定義
モデルの推論時(テスト時)に計算量を増やすことで精度を向上させる手法。OpenAI o1やDeepSeek-R1が採用し、「考える時間」を与えることで難問を解く能力を高める。
詳細解説
テストタイムコンピュート(Test-Time Compute)とは、AIモデルの推論時(テスト時)に投入する計算量を増やすことで、回答の精度や品質を向上させるアプローチの総称です。従来のLLM開発が学習時のコンピュート(パラメータ数・データ量・学習時間)のスケーリングに注力していたのに対し、推論時の「考える時間」を増やすという新しいスケーリング軸として注目されています。
背景として、2024年にOpenAIがo1モデルで「推論時コンピュートのスケーリング」を実証し、続いてDeepSeek-R1が同様のアプローチでオープンソースモデルとして高い推論性能を達成したことで、テストタイムコンピュートはLLMの性能向上における新たなパラダイムとして確立されました。
主要な手法として、(1)Chain of Thought(CoT)推論:回答前に段階的な思考プロセスを生成し、複雑な問題を分解して解く。o1・R1は内部で数百〜数千トークンの「隠れた思考」を生成、(2)Best-of-N サンプリング:同じ問題に対して複数の回答候補を生成し、検証器(Verifier)で最良の回答を選択、(3)自己修正(Self-Correction):生成した回答を自ら検証し、誤りを発見した場合に別のアプローチで再試行、(4)探索ベース手法:Tree of Thought等の木探索アルゴリズムで解空間を体系的に探索を含みます。
トレードオフとして、テストタイムコンピュートを増やすと精度は向上しますが、レイテンシ(応答時間)とコスト(トークン消費量)が増加します。簡単な質問にはGPT-4oのような即答型モデルが効率的で、数学・論理・コーディング等の複雑な推論タスクにはo1・R1のようなテストタイムコンピュートモデルが適しています。タスクの難易度に応じたモデル使い分け(ルーティング)が実用上の鍵となります。
参考情報・出典
- ▸Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters— arXiv / Snell et al.(参照日: 2026-02-26)
- ▸Learning to Reason with LLMs— OpenAI(参照日: 2026-02-26)