一文定義
深さの混合(MoD)とは、トランスフォーマーの各層でトークンの処理を動的にスキップする適応計算手法で、重要トークンのみ深い層を通過させることで計算量を削減しながら性能を維持します。
詳細解説
Mixture of Depths(MoD:深さの混合)とは、トランスフォーマーモデルの各層において、すべてのトークンを処理するのではなく、重要度に応じてトークンを選択的に処理するルーティング機構を導入した適応計算(Adaptive Computation)手法です。Google DeepMindのRaposoらが2024年に提案しました。
従来のトランスフォーマーでは、すべての層ですべてのトークンが同等の計算量で処理されます(FLOPs固定)。MoDでは各層にルーターを設け、上位k%のトークンのみをAttentionとFFNで処理し、残りのトークンは残差接続でスキップします。これにより学習時・推論時のFLOPs総量を削減できます。
Mixture of Experts(MoE)との違いは、MoEが「どのエキスパートネットワークを通すか」を選択するのに対し、MoDは「その層を通過するかどうか」を選択する点です。両者を組み合わせた手法も研究されています。
実験では、同じFLOPs予算でMoDを適用すると標準トランスフォーマーと同等以上の性能を達成しつつ、推論速度を改善できることが示されています。次世代の効率的なLLMアーキテクチャの有力候補として注目されています。
参考情報・出典
- ▸Mixture of Depths: Dynamically allocating compute in transformers— arXiv / Raposo et al. (Google DeepMind)(参照日: 2026-02-26)