🟢 Plain Language

Eine spezielle Datenbank für KI — speichert Texte als mathematische Vektoren und findet semantisch ähnliche Inhalte blitzschnell.

🔵 Expert Level

Vector Database als RAG-Kernkomponente: speichert Embeddings (float32-Vektoren, typisch 1536 Dimensionen für ada-002). Nearest-Neighbor-Suche via HNSW (Hierarchical Navigable Small World) oder IVF-Flat. Produkte: Pinecone, Weaviate, Qdrant, Chroma, pgvector. Hybrid Search: Dense (semantisch) + Sparse (BM25) für bessere Recall-Rates. DSGVO-relevant bei personenbezogenen Embeddings.

Definition

Während traditionelle Datenbanken exakte Übereinstimmungen suchen (WHERE name = 'HITL'), suchen Vector Databases nach semantischer Ähnlichkeit:

“Was ist ähnlich zu ‘KI-Aufsicht’?” → findet HITL, Human Oversight, Art. 14

Grundprinzip:

Text → Embedding-Modell → Vektor (z.B. 1536 Dimensionen)
Vektor in DB speichern
Query → Vektor → Ähnlichste Vektoren finden (ANN-Suche)

Wichtige Vector Databases

Name	Lizenz	Besonderheit
Qdrant	Apache 2.0	Rust, hoch performant, IIO-Standard
Chroma	Apache 2.0	Python-native, einfach
Weaviate	BSD-3	GraphQL, multimodal
Pinecone	Proprietary	Cloud-only, managed
pgvector	PostgreSQL	Extension, SQL-kompatibel
Milvus	Apache 2.0	Enterprise, skalierbar

Embeddings

Ein Embedding ist die Vektordarstellung eines Textes:

text = "Human-in-the-Loop ist ein Governance-Prinzip"
embedding = model.encode(text)
# → [0.23, -0.87, 0.45, ..., 0.12]  (1536 Zahlen)

Semantisch ähnliche Texte haben ähnliche Vektoren (kleiner Abstand).

RAG mit Vector DB

Dokumente → Embedding → Vector DB (indexiert)
                                ↓
Nutzer-Query → Embedding → Ähnlichste Dokument-Chunks
                                ↓
LLM + Chunks → Fundierte Antwort mit Quellen

IIO Qdrant Setup

# docker-compose.yml
qdrant:
  image: qdrant/qdrant:latest
  volumes:
    - ./data/qdrant:/qdrant/storage
  ports:
    - "6333:6333"  # REST API
    - "6334:6334"  # gRPC

Verwendung in IIO:

OCC Glossar-Chunks (82 Begriffe × mehrere Chunks)
Interne Wissensbasis für RAG-Queries
Codebase-Suche für Coding-Agents

Cytowanie

"Vector Database." Open Cognition Commons Foundation. https://opencognitioncommons.org/pl/glossary/vector-database. CC-BY 4.0.

Metadane czytelne maszynowo

{
  "@context": "https://schema.org",
  "@type": "DefinedTerm",
  "name": "Vector Database",
  "description": "Eine Vector Database ist eine spezialisierte Datenbank, die Daten als hochdimensionale Vektoren (Embeddings) speichert und effiziente Ähnlichkeitssuche (Approximate Nearest Neighbor) ermöglicht.\n",
  "url": "https://opencognitioncommons.org/pl/glossary/vector-database",
  "license": "https://creativecommons.org/licenses/by/4.0/",
  "alternateName": [
    "Vector Database",
    "Vector DB",
    "Vektordatenbank"
  ]
}