Mixture of Experts
MoE
Architektura modelu, gdzie każdy forward pass aktywuje tylko ułamek całkowitych parametrów przez wyuczony router. Mixtral, DeepSeek-V3 i Llama 4 tego używają. Większa łączna liczba parametrów, podobny compute na token.
Modele MoE zastępują niektóre warstwy gęste przez N podsieci eksperckich plus router, który wybiera top-k ekspertów dla każdego tokenu. Gęsty model 70B używa wszystkich 70B przy każdym forward pass; MoE 70B z routingiem top-2-z-8 używa ~17B na token, mimo że łączna liczba parametrów jest znacznie większa.
Praktyczna implikacja: modele MoE dają ci szerokość wiedzy znacznie większego modelu przy koszcie inferencji mniejszego. Cena to złożoność inżynieryjna — balansowanie obciążenia między ekspertami, stabilność treningu i memory footprint, który nadal wymaga trzymania wszystkich ekspertów w VRAM.
Zobacz też
-
Context window
Context windowMaksymalna liczba tokenów, którą LLM może rozważyć na jeden forward pass. Czołówka 2026: 1M+ dla niektórych modeli (Claude 4.7, Gemini 2.5 Pro). Większe okno ≠ lepsza odpowiedź — recall degraduje wewnątrz długiego kontekstu.
-
Agentic
Agentic systemsPętle prowadzone przez LLM, które planują, podejmują działania w świecie (wywołują narzędzia, edytują pliki, biją w API), obserwują rezultaty i iterują — zamiast po prostu odpowiadać na jeden prompt. Dominujący paradygmat inżynierii AI w 2026.