Vector embedding
Embedding
Gęsty wektor liczbowy reprezentujący tekst (lub obraz, audio…) w wyuczonej przestrzeni semantycznej. Kosinusowo-podobne wektory = semantycznie podobna treść. Fundament każdego pipeline'u RAG.
Model embeddingu mapuje chunk wejścia na wektor o ustalonej wymiarowości (typowo 384, 768, 1536 lub 3072 wymiary). Cel treningu jest tak ustawiony, że semantycznie podobne wejścia kończą blisko siebie w przestrzeni — „jak naprawić cieknący kran” i „poradnik naprawy hydrauliki” powinny być sąsiadami; „jak naprawić cieknący kran” i „mongolskie śpiewanie gardłowe” nie.
Produkcyjne stacki zwykle używają hostowanego modelu embeddingu (OpenAI text-embedding-3, Cohere embed-v3, Voyage AI) lub otwartego (BGE, E5, GTE) plus bazy wektorowej (Pinecone, Weaviate, Qdrant, pgvector, Cloudflare Vectorize). Wybór modelu embeddingu ma większe znaczenie niż wybór bazy — baza tylko przechowuje i szuka tego, co model wyprodukował.
Zobacz też
-
RAG
Retrieval-Augmented GenerationWyciągasz odpowiedni kontekst z zewnętrznego źródła (baza wektorowa, dokumenty, twój korpus) i wsadzasz do promptu LLM przed odpowiedzią. Redukuje halucynacje, tańsze niż fine-tuning, ale dorzuca własny tryb awarii: jakość samego wyszukiwania.
-
Context window
Context windowMaksymalna liczba tokenów, którą LLM może rozważyć na jeden forward pass. Czołówka 2026: 1M+ dla niektórych modeli (Claude 4.7, Gemini 2.5 Pro). Większe okno ≠ lepsza odpowiedź — recall degraduje wewnątrz długiego kontekstu.