一文定義
投機的デコーディングとは、小型モデルで候補トークンを先読みし、大型モデルで検証することで推論速度を大幅に向上させる技術です。出力品質を保ちながらレイテンシを削減できます。
詳細解説
投機的デコーディング(Speculative Decoding)とは、大型のターゲットモデル(例:70B LLM)のみで逐次的にトークンを生成する代わりに、小型の「ドラフトモデル」(例:7B LLM)が複数の候補トークンを一括生成し、それをターゲットモデルが並列に検証・採択または棄却することで、出力の品質を維持しながら推論速度を大幅に向上させる技術です。
投機的デコーディングが重要な理由は、LLMの推論(inference)はトークンを1つずつ逐次生成するという性質上、モデルを大型化するほど速度低下が避けられないためです。ドラフトモデルの先読みが正解率の高い提案を生成できれば、ターゲットモデルは多数のトークンを一度のフォワードパスで採択でき、実効的なスループットが2〜3倍以上向上します。
Google・DeepMindが2022〜2023年に論文発表し、AnthropicのClaude・Google GeminiなどでAPI応答の高速化に活用されています。self-speculative decoding(同一モデルの早期層をドラフターとして使う手法)や、量子化モデルをドラフターとして使う手法も研究されています。streamingとの組み合わせでユーザーへの最初のトークン表示(TTFT)も改善されます。quantizationと並ぶLLM推論最適化の主要アプローチです。
参考情報・出典
- ▸Fast Inference from Transformers via Speculative Decoding— arXiv / Leviathan et al. / Google (2023)(参照日: 2026-02-26)
- ▸Accelerating Large Language Model Decoding with Speculative Sampling— arXiv / Chen et al. / DeepMind (2023)(参照日: 2026-02-26)