Retrieval-Augmented Generation
RAG
Wyciągasz odpowiedni kontekst z zewnętrznego źródła (baza wektorowa, dokumenty, twój korpus) i wsadzasz do promptu LLM przed odpowiedzią. Redukuje halucynacje, tańsze niż fine-tuning, ale dorzuca własny tryb awarii: jakość samego wyszukiwania.
RAG to dominujący produkcyjny wzorzec uziemiania LLM-ów w wiedzy domenowej. Zamiast fine-tunować model na twoich danych — drogo, wolno, model zamarza na migawce — trzymasz dane w warstwie retrievalowej (typowo: wektorowe embeddingi nad chunk-ami tekstu) i przy zapytaniu pobierasz top-k najbardziej trafnych chunk-ów do wrzucenia w prompt.
Zyski: taniej niż fine-tuning, aktualizuje się natychmiast gdy korpus się zmienia, model może podać które chunk-i wykorzystał. Straty: jakość retrievalu staje się osobnym problemem inżynieryjnym (strategia chunkowania, wybór embeddingu, rerank, eval), a okno kontekstu daje twardy sufit na to, ile da się wepchnąć.
Dojrzały produkcyjny stack RAG zawiera query rewriter, reranker, tracking cytowań i pętlę ewaluacyjną — nie tylko gołe wyszukiwanie po wektorach.
Zobacz też
-
Embedding
Vector embeddingGęsty wektor liczbowy reprezentujący tekst (lub obraz, audio…) w wyuczonej przestrzeni semantycznej. Kosinusowo-podobne wektory = semantycznie podobna treść. Fundament każdego pipeline'u RAG.
-
Context window
Context windowMaksymalna liczba tokenów, którą LLM może rozważyć na jeden forward pass. Czołówka 2026: 1M+ dla niektórych modeli (Claude 4.7, Gemini 2.5 Pro). Większe okno ≠ lepsza odpowiedź — recall degraduje wewnątrz długiego kontekstu.
-
Eval
EvaluationSystematyczny pomiar jakości LLM/agenta — celność, częstotliwość halucynacji, latencja, koszt. Dyscyplina, którą chciałbyś zacząć 6 miesięcy wcześniej. Bez niej wysyłasz na vibe.