MoE（Mixture of Experts）とは？わかりやすく解説

一文定義

MoEとは、モデルの一部（専門家サブネット）だけを選択的に活性化する効率的なアーキテクチャです。Mixtral・GPT-4などが採用し、大規模化と計算効率を両立します。

詳細解説

MoE（Mixture of Experts：混合エキスパート）とは、ニューラルネットワーク内に複数の「専門家（Expert）」サブネットワークを持ち、各トークンの処理時にルーター（Gating Network）が最も適切な専門家を選択・活性化するアーキテクチャです。

MoEが注目される理由は、全パラメータを常に使う密なモデル（Dense Model）と異なり、推論時に活性化されるパラメータが全体の一部に留まるため、「大きなパラメータ数（総パラメータ）」と「低い推論コスト（活性化パラメータ）」を同時に実現できるからです。例えば、Mixtral 8x7Bは総パラメータ約47Bですが、各トークン処理では2つの専門家（計約12.9B相当）のみを使用します。

代表的なMoEモデルとして、Mistral AIのMixtral 8x7B・8x22B、OpenAI GPT-4（MoEアーキテクチャの採用が外部から指摘）、Google Gemini 1.5などがあります。トランスフォーマーアーキテクチャのFFN（フィードフォワードネットワーク）層をMoEに置き換える実装が一般的です。

参考情報・出典

▸
Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer— arXiv / Shazeer et al.（参照日: 2026-02-26）
▸
Mixtral of Experts— arXiv / Mistral AI（参照日: 2026-02-26）

MoE（Mixture of Experts）

一文定義

詳細解説

参考情報・出典

関連用語

AIスキルだけでなく、自分と未来を再設計する