AI Week Radar

Context window

Context window

Maksymalna liczba tokenów, którą LLM może rozważyć na jeden forward pass. Czołówka 2026: 1M+ dla niektórych modeli (Claude 4.7, Gemini 2.5 Pro). Większe okno ≠ lepsza odpowiedź — recall degraduje wewnątrz długiego kontekstu.

Okno kontekstu to budżet input + output na jedno wywołanie LLM, liczony w tokenach (~0.75 słowa dla angielskiego, ~0.5 dla polskiego). Gdy spec mówi „200k kontekstu”, obejmuje to system prompt, historię rozmowy, wszystkie pobrane chunk-i ORAZ miejsce na odpowiedź modelu.

Większe okna umożliwiają dłuższe dokumenty, głębsze historie agentów i workflow-y typu „wepchnij-cały-codebase”. Ale: recall nie jest jednolity przez całe okno. Większość modeli lepiej przypomina sobie treść z początku i końca niż ze środka („lost-in-the-middle”). Powyżej ~100k tokenów, recall konkretnych faktów często ostro spada.

Praktyczna odpowiedź: RAG ciągle jest relewantny nawet przy 1M kontekstu. Nie zastępuj retrievalu brute-force-em wpychania kontekstu; łącz je.

Zobacz też