混合専門家(MoE)アーキテクチャーは、モデルのニューラル・ネットワークの層を複数の「専門家」にサブカテゴリー化することで、大きなモデルの知識容量と小さなモデルの推論効率のバランスをとることを目的としています。 MoEモデルは、各トークンのすべてのモデル・パラメーターをアクティブにするのではなく、そのトークンの処理に最も適した「専門家」のみをアクティブ化するゲーティング機能を使用します。

合計パラメータ数109Bの2つの新しいモデルのうち比較的小さいLlama 4 Scoutは、16の専門家に分割されています。推論では、アクティブなパラメーター数はわずか17Bであるため、より多くのユーザーに並行してサービスを提供できます。 40兆トークンのデータでトレーニングされたLlama 4 Scoutは、コストとレイテンシーを低く抑えながら、大幅に多いアクティブ・パラメーター数を備えたモデルに匹敵するかそれを超える性能を提供します。こういったコンパクトなコンピューティング要件にもかかわらず、Llama 4 Scoutはコーディング、推論、長いコンテキスト、画像理解のベンチマークにおいては同等のモデルを上回っています。

Llama 4 Maverickは128の専門家に分かれており、Llama 4 Scoutと同じ17Bのアクティブなパラメータ数を維持しながら、合計400Bのパラメータに関する知識を引き出しています。Meta AIの公式発表によると、Llama 4 Maverickは、幅広いマルチモーダル・ベンチマークにおいてOpenAIのGPT-4oとGoogleのGemini 2.0 Flashを「全面的に」上回り、推論およびコーディングのタスクに関しては、はるかに大規模なDeepSeek-V3の性能に匹敵します。