AI Week Radar

Mixture of Experts

MoE

Architektura modelu, gdzie każdy forward pass aktywuje tylko ułamek całkowitych parametrów przez wyuczony router. Mixtral, DeepSeek-V3 i Llama 4 tego używają. Większa łączna liczba parametrów, podobny compute na token.

Modele MoE zastępują niektóre warstwy gęste przez N podsieci eksperckich plus router, który wybiera top-k ekspertów dla każdego tokenu. Gęsty model 70B używa wszystkich 70B przy każdym forward pass; MoE 70B z routingiem top-2-z-8 używa ~17B na token, mimo że łączna liczba parametrów jest znacznie większa.

Praktyczna implikacja: modele MoE dają ci szerokość wiedzy znacznie większego modelu przy koszcie inferencji mniejszego. Cena to złożoność inżynieryjna — balansowanie obciążenia między ekspertami, stabilność treningu i memory footprint, który nadal wymaga trzymania wszystkich ekspertów w VRAM.

Zobacz też