Eval

Systematyczny pomiar jakości LLM/agenta — celność, częstotliwość halucynacji, latencja, koszt. Dyscyplina, którą chciałbyś zacząć 6 miesięcy wcześniej. Bez niej wysyłasz na vibe.

Evale to test suite inżynierii LLM. Wersja naiwna: lista wejść + oczekiwane wyjścia, scorowane przez dopasowanie stringów. Wersja dorosła: held-out datasety, LLM-as-judge dla open-ended jakości, śledzenie regresji przez wersje modelu, wykrywanie driftu w produkcyjnym ruchu.

Kategorie warte śledzenia: task-specific (czy agent zamknął ticket poprawnie?), safety (czy odmawia poza-scope-owych zapytań?), koszt/latencja (czy nowy prompt rozwala budżet?) i drift (czy produkcyjny ruch odpływa od tego, co pokrywa eval set?).

Eval set to też kanarek przy upgrade'owaniu modeli. Nowy model wpada → odpal evale → porównaj. Bez tego zgadujesz, czy upgrade to regresja.

Zobacz też

RAG
Retrieval-Augmented Generation

Wyciągasz odpowiedni kontekst z zewnętrznego źródła (baza wektorowa, dokumenty, twój korpus) i wsadzasz do promptu LLM przed odpowiedzią. Redukuje halucynacje, tańsze niż fine-tuning, ale dorzuca własny tryb awarii: jakość samego wyszukiwania.
Agentic
Agentic systems

Pętle prowadzone przez LLM, które planują, podejmują działania w świecie (wywołują narzędzia, edytują pliki, biją w API), obserwują rezultaty i iterują — zamiast po prostu odpowiadać na jeden prompt. Dominujący paradygmat inżynierii AI w 2026.
Context window
Context window

Maksymalna liczba tokenów, którą LLM może rozważyć na jeden forward pass. Czołówka 2026: 1M+ dla niektórych modeli (Claude 4.7, Gemini 2.5 Pro). Większe okno ≠ lepsza odpowiedź — recall degraduje wewnątrz długiego kontekstu.

← Wszystkie terminy Zapisz się →

Zobacz też

RAG

Agentic

Context window