Evaluation
Eval
Systematyczny pomiar jakości LLM/agenta — celność, częstotliwość halucynacji, latencja, koszt. Dyscyplina, którą chciałbyś zacząć 6 miesięcy wcześniej. Bez niej wysyłasz na vibe.
Evale to test suite inżynierii LLM. Wersja naiwna: lista wejść + oczekiwane wyjścia, scorowane przez dopasowanie stringów. Wersja dorosła: held-out datasety, LLM-as-judge dla open-ended jakości, śledzenie regresji przez wersje modelu, wykrywanie driftu w produkcyjnym ruchu.
Kategorie warte śledzenia: task-specific (czy agent zamknął ticket poprawnie?), safety (czy odmawia poza-scope-owych zapytań?), koszt/latencja (czy nowy prompt rozwala budżet?) i drift (czy produkcyjny ruch odpływa od tego, co pokrywa eval set?).
Eval set to też kanarek przy upgrade'owaniu modeli. Nowy model wpada → odpal evale → porównaj. Bez tego zgadujesz, czy upgrade to regresja.
Zobacz też
-
RAG
Retrieval-Augmented GenerationWyciągasz odpowiedni kontekst z zewnętrznego źródła (baza wektorowa, dokumenty, twój korpus) i wsadzasz do promptu LLM przed odpowiedzią. Redukuje halucynacje, tańsze niż fine-tuning, ale dorzuca własny tryb awarii: jakość samego wyszukiwania.
-
Agentic
Agentic systemsPętle prowadzone przez LLM, które planują, podejmują działania w świecie (wywołują narzędzia, edytują pliki, biją w API), obserwują rezultaty i iterują — zamiast po prostu odpowiadać na jeden prompt. Dominujący paradygmat inżynierii AI w 2026.
-
Context window
Context windowMaksymalna liczba tokenów, którą LLM może rozważyć na jeden forward pass. Czołówka 2026: 1M+ dla niektórych modeli (Claude 4.7, Gemini 2.5 Pro). Większe okno ≠ lepsza odpowiedź — recall degraduje wewnątrz długiego kontekstu.