AI Week Radar

Evaluation

Eval

Systematyczny pomiar jakości LLM/agenta — celność, częstotliwość halucynacji, latencja, koszt. Dyscyplina, którą chciałbyś zacząć 6 miesięcy wcześniej. Bez niej wysyłasz na vibe.

Evale to test suite inżynierii LLM. Wersja naiwna: lista wejść + oczekiwane wyjścia, scorowane przez dopasowanie stringów. Wersja dorosła: held-out datasety, LLM-as-judge dla open-ended jakości, śledzenie regresji przez wersje modelu, wykrywanie driftu w produkcyjnym ruchu.

Kategorie warte śledzenia: task-specific (czy agent zamknął ticket poprawnie?), safety (czy odmawia poza-scope-owych zapytań?), koszt/latencja (czy nowy prompt rozwala budżet?) i drift (czy produkcyjny ruch odpływa od tego, co pokrywa eval set?).

Eval set to też kanarek przy upgrade'owaniu modeli. Nowy model wpada → odpal evale → porównaj. Bez tego zgadujesz, czy upgrade to regresja.

Zobacz też