Context window
Context window
Maksymalna liczba tokenów, którą LLM może rozważyć na jeden forward pass. Czołówka 2026: 1M+ dla niektórych modeli (Claude 4.7, Gemini 2.5 Pro). Większe okno ≠ lepsza odpowiedź — recall degraduje wewnątrz długiego kontekstu.
Okno kontekstu to budżet input + output na jedno wywołanie LLM, liczony w tokenach (~0.75 słowa dla angielskiego, ~0.5 dla polskiego). Gdy spec mówi „200k kontekstu”, obejmuje to system prompt, historię rozmowy, wszystkie pobrane chunk-i ORAZ miejsce na odpowiedź modelu.
Większe okna umożliwiają dłuższe dokumenty, głębsze historie agentów i workflow-y typu „wepchnij-cały-codebase”. Ale: recall nie jest jednolity przez całe okno. Większość modeli lepiej przypomina sobie treść z początku i końca niż ze środka („lost-in-the-middle”). Powyżej ~100k tokenów, recall konkretnych faktów często ostro spada.
Praktyczna odpowiedź: RAG ciągle jest relewantny nawet przy 1M kontekstu. Nie zastępuj retrievalu brute-force-em wpychania kontekstu; łącz je.
Zobacz też
-
RAG
Retrieval-Augmented GenerationWyciągasz odpowiedni kontekst z zewnętrznego źródła (baza wektorowa, dokumenty, twój korpus) i wsadzasz do promptu LLM przed odpowiedzią. Redukuje halucynacje, tańsze niż fine-tuning, ale dorzuca własny tryb awarii: jakość samego wyszukiwania.
-
MoE
Mixture of ExpertsArchitektura modelu, gdzie każdy forward pass aktywuje tylko ułamek całkowitych parametrów przez wyuczony router. Mixtral, DeepSeek-V3 i Llama 4 tego używają. Większa łączna liczba parametrów, podobny compute na token.