MoE とは

Mixture of Experts（MoE：混合専門家モデル）は、複数の独立したニューラルネットワーク（エキスパート）と、入力データに応じて最適なエキスパートを選択するメカニズム（ゲーティングネットワークまたはルーター）を組み合わせたニューラルネットワークアーキテクチャです。💡

従来の単一の巨大なニューラルネットワーク（密モデル）が「何でも屋」だとすると、MoEは「分野ごとの専門家チームと、適切な専門家に振り分けるディスパッチャー」のようなものです。

MoEの基本構造と仕組み

MoEアーキテクチャは主に以下の3つのコンポーネントで構成されます。

エキスパート (Experts) 🧑‍🔬
- 特定のタスクやデータの特徴に特化した、複数の独立した小さなニューラルネットワークの集合です。
- 通常、Transformerモデルにおけるフィードフォワードネットワーク（FFN）層を、複数のエキスパートで置き換える形で実装されます。
ゲーティングネットワーク (Gating Network / Router) 🚪
- 入力データを受け取り、どのエキスパートがそのタスクに最も適しているかを判断し、選択（ルーティング）します。
- 一般的に、入力に対して各エキスパートに割り当てる重み（確率）を出力する小さなニューラルネットワークです。
スパース活性化 (Sparse Activation) 📉
- MoEの最も重要な特徴の一つです。入力データ（例：大規模言語モデルのトークン）ごとに、すべてのエキスパートを使うのではなく、ゲーティングネットワークによって選ばれた少数のエキスパート（例：Top-k、通常は $k=1$ または $2$ ）のみが計算を実行します。
- これにより、モデル全体のパラメータ数は非常に大きいにもかかわらず、1回の推論（または訓練）で実際に使用される計算量は、同程度の性能を持つ密モデルよりも大幅に削減されます。

選択されたエキスパートの出力は、ゲーティングネットワークが出した重みに従って重み付けされ、組み合わされて最終的な結果となります。

MoEモデルは、特に大規模言語モデル（LLM）のスケーリングにおいて革新的なメリットをもたらします。

計算量削減: スパース活性化により、必要なエキスパートだけが計算を行うため、パラメーター総数が非常に大きいにもかかわらず、実際の計算コスト（FLOPs）を同性能の密モデルよりも低く抑えることができます。
トレーニングと推論の高速化: 結果として、トレーニング時間の短縮や推論のレイテンシ（応答時間）短縮に繋がります。

効率的なモデル拡張: パラメータ数を増やしたい場合、既存のエキスパートのサイズを大きくするのではなく、エキスパートの数自体を増やすことができます。計算量は増えるエキスパートの数に比例せず抑えられるため、より大規模で高性能なモデルを効率的に構築できます。

各エキスパートが訓練を通じて特定の種類のデータやタスクに特化するようになります（例：文法、数学、コーディングなど）。これにより、モデル全体として多様なタスクに対して高いパフォーマンスを発揮しやすくなります。

一方で、MoEにはいくつかの課題もあります。

メモリ使用量 (VRAM) の増大: 推論時に一部のエキスパートしか活性化されなくても、すべてのエキスパートのパラメータをデバイス（GPUなど）のメモリにロードしておく必要があるため、モデル全体のパラメータが非常に大きいMoEモデルは、密モデルよりも大きなメモリ容量を要求します。
負荷分散の難しさ: ゲーティングネットワークが特定の数人のエキスパートばかりを選択し、他のエキスパートがあまり使われなくなる（ロードバランスの不均衡）ことが起こりがちです。これを防ぐために、トレーニング中に負荷分散を促すための補助的な損失関数（Auxiliary Loss）が導入されることが多いです。
通信オーバーヘッド: 複数のエキスパートが異なるデバイスに分散配置されている場合、入力データや中間結果のやり取り（ネットワーク通信）が増え、これがボトルネックになる可能性があります。