Eine spezielle Datenbank für KI — speichert Texte als mathematische Vektoren und findet semantisch ähnliche Inhalte blitzschnell.
Vector Database als RAG-Kernkomponente: speichert Embeddings (float32-Vektoren, typisch 1536 Dimensionen für ada-002). Nearest-Neighbor-Suche via HNSW (Hierarchical Navigable Small World) oder IVF-Flat. Produkte: Pinecone, Weaviate, Qdrant, Chroma, pgvector. Hybrid Search: Dense (semantisch) + Sparse (BM25) für bessere Recall-Rates. DSGVO-relevant bei personenbezogenen Embeddings.
Definition
Während traditionelle Datenbanken exakte Übereinstimmungen suchen
(WHERE name = 'HITL'), suchen Vector Databases nach semantischer Ähnlichkeit:
“Was ist ähnlich zu ‘KI-Aufsicht’?” → findet HITL, Human Oversight, Art. 14
Grundprinzip:
- Text → Embedding-Modell → Vektor (z.B. 1536 Dimensionen)
- Vektor in DB speichern
- Query → Vektor → Ähnlichste Vektoren finden (ANN-Suche)
Wichtige Vector Databases
| Name | Lizenz | Besonderheit |
|---|---|---|
| Qdrant | Apache 2.0 | Rust, hoch performant, IIO-Standard |
| Chroma | Apache 2.0 | Python-native, einfach |
| Weaviate | BSD-3 | GraphQL, multimodal |
| Pinecone | Proprietary | Cloud-only, managed |
| pgvector | PostgreSQL | Extension, SQL-kompatibel |
| Milvus | Apache 2.0 | Enterprise, skalierbar |
Embeddings
Ein Embedding ist die Vektordarstellung eines Textes:
text = "Human-in-the-Loop ist ein Governance-Prinzip"
embedding = model.encode(text)
# → [0.23, -0.87, 0.45, ..., 0.12] (1536 Zahlen)
Semantisch ähnliche Texte haben ähnliche Vektoren (kleiner Abstand).
RAG mit Vector DB
Dokumente → Embedding → Vector DB (indexiert)
↓
Nutzer-Query → Embedding → Ähnlichste Dokument-Chunks
↓
LLM + Chunks → Fundierte Antwort mit Quellen
IIO Qdrant Setup
# docker-compose.yml
qdrant:
image: qdrant/qdrant:latest
volumes:
- ./data/qdrant:/qdrant/storage
ports:
- "6333:6333" # REST API
- "6334:6334" # gRPC
Verwendung in IIO:
- OCC Glossar-Chunks (82 Begriffe × mehrere Chunks)
- Interne Wissensbasis für RAG-Queries
- Codebase-Suche für Coding-Agents
Cytowanie
"Vector Database." Open Cognition Commons Foundation. https://opencognitioncommons.org/pl/glossary/vector-database. CC-BY 4.0. Metadane czytelne maszynowo
{
"@context": "https://schema.org",
"@type": "DefinedTerm",
"name": "Vector Database",
"description": "Eine Vector Database ist eine spezialisierte Datenbank, die Daten als hochdimensionale Vektoren (Embeddings) speichert und effiziente Ähnlichkeitssuche (Approximate Nearest Neighbor) ermöglicht.\n",
"url": "https://opencognitioncommons.org/pl/glossary/vector-database",
"license": "https://creativecommons.org/licenses/by/4.0/",
"alternateName": [
"Vector Database",
"Vector DB",
"Vektordatenbank"
]
}