一文定義
MoEとは、モデルの一部(専門家サブネット)だけを選択的に活性化する効率的なアーキテクチャです。Mixtral・GPT-4などが採用し、大規模化と計算効率を両立します。
詳細解説
MoE(Mixture of Experts:混合エキスパート)とは、ニューラルネットワーク内に複数の「専門家(Expert)」サブネットワークを持ち、各トークンの処理時にルーター(Gating Network)が最も適切な専門家を選択・活性化するアーキテクチャです。
MoEが注目される理由は、全パラメータを常に使う密なモデル(Dense Model)と異なり、推論時に活性化されるパラメータが全体の一部に留まるため、「大きなパラメータ数(総パラメータ)」と「低い推論コスト(活性化パラメータ)」を同時に実現できるからです。例えば、Mixtral 8x7Bは総パラメータ約47Bですが、各トークン処理では2つの専門家(計約12.9B相当)のみを使用します。
代表的なMoEモデルとして、Mistral AIのMixtral 8x7B・8x22B、OpenAI GPT-4(MoEアーキテクチャの採用が外部から指摘)、Google Gemini 1.5などがあります。トランスフォーマーアーキテクチャのFFN(フィードフォワードネットワーク)層をMoEに置き換える実装が一般的です。
参考情報・出典
- ▸Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer— arXiv / Shazeer et al.(参照日: 2026-02-26)
- ▸Mixtral of Experts— arXiv / Mistral AI(参照日: 2026-02-26)