RAG

Wyciągasz odpowiedni kontekst z zewnętrznego źródła (baza wektorowa, dokumenty, twój korpus) i wsadzasz do promptu LLM przed odpowiedzią. Redukuje halucynacje, tańsze niż fine-tuning, ale dorzuca własny tryb awarii: jakość samego wyszukiwania.

RAG to dominujący produkcyjny wzorzec uziemiania LLM-ów w wiedzy domenowej. Zamiast fine-tunować model na twoich danych — drogo, wolno, model zamarza na migawce — trzymasz dane w warstwie retrievalowej (typowo: wektorowe embeddingi nad chunk-ami tekstu) i przy zapytaniu pobierasz top-k najbardziej trafnych chunk-ów do wrzucenia w prompt.

Zyski: taniej niż fine-tuning, aktualizuje się natychmiast gdy korpus się zmienia, model może podać które chunk-i wykorzystał. Straty: jakość retrievalu staje się osobnym problemem inżynieryjnym (strategia chunkowania, wybór embeddingu, rerank, eval), a okno kontekstu daje twardy sufit na to, ile da się wepchnąć.

Dojrzały produkcyjny stack RAG zawiera query rewriter, reranker, tracking cytowań i pętlę ewaluacyjną — nie tylko gołe wyszukiwanie po wektorach.

Zobacz też

← Wszystkie terminy Zapisz się →

RAG

Zobacz też

Embedding

Context window

Eval