🟢 Plain Language

Ollama bedeutet: Ollama ist ein Open-Source-Tool, das den lokalen Betrieb von KI-Sprachmodellen vereinfacht — mit automatischem Download, GPU-Nutzung, OpenAI-kompatibler REST-API und einfacher Modellverwaltung. Das ist wichtig, weil KI-Systeme heute überall eingesetzt werden und Regeln brauchen, damit sie sicher und fair funktionieren.

🔵 Expert Level

Ollama ist ein Open-Source-Tool, das den lokalen Betrieb von KI-Sprachmodellen vereinfacht — mit automatischem Download, GPU-Nutzung, OpenAI-kompatibler REST-API und einfacher Modellverwaltung. [IIO Framework] Ollama: Open-source local LLM inference server. IIO uses Ollama on inhzgx9 (RTX PRO 6000 Blackwell, 96GB VRAM) to serve: qwen2.5:32b (general chat), llama3.2-vision:11b (image analysis), nomic-embed-text (embeddings). Ollama API is OpenAI-compatible. LiteLLM proxies Ollama models under the aliases: [IIO Framework] Retrieval-Augmented Generation: KI-Technik die externe Wissensquellen in die Antwortgenerierung einbezieht. IIO RAG-Stack: Ollama + Qdrant + Tika + OpenWebUI. [IIO Framework] AI Hub: Zentrale Infrastruktur für lokale KI-Modelle. IIO AI Hub: Ollama + LiteLLM + OpenWebUI auf dedizierten GPU-Servern. Privacy by default, DSGVO-konform.

Was ist Ollama?

Ollama vereinfacht das lokale Betreiben von KI-Modellen auf:

Mac (M1/M2/M3, Metal GPU)
Linux (NVIDIA/AMD CUDA)
Windows (WSL2 + NVIDIA)

Kernfunktionen:

Modell-Download und -Verwaltung (ollama pull llama3)
Automatische GPU-Nutzung
OpenAI-kompatible REST-API (localhost:11434)
Modelfile-System für Custom-Modelle

Unterstützte Modelle (Auswahl)

Familie	Modelle	Stärke
Llama	3.1 8B, 70B, 405B	General Purpose
Qwen	2.5 7B, 32B, 72B	Coding, Reasoning
Mistral	7B, Large	Europäisches Modell
Deepseek	Coder-V2, R1	Coding, Math
Phi	3.5, 4	Kleine, schnelle Modelle
Gemma	2 2B, 9B	Google Open Source

Ollama API

# Chat
curl http://localhost:11434/api/chat -d '{
  "model": "qwen2.5:7b",
  "messages": [{"role": "user", "content": "Was ist EU AI Act?"}]
}'

# Generate
curl http://localhost:11434/api/generate -d '{
  "model": "qwen2.5:7b",
  "prompt": "Erkläre HITL in einem Satz"
}'

# Modelle auflisten
curl http://localhost:11434/api/tags

IIO AI Hub Setup

IIO nutzt Ollama als Inference-Backend:

GPU-Server (inhzgx4/inhzgx9)
    └── Ollama (Port 11434)
            ↓
        LiteLLM (Port 4000) ← Routing + Aliase
            ↓
        OpenWebUI (Port 3000) ← UI für Nutzer

DSGVO und Ollama

Ollama ist die DSGVO-konforme KI-Lösung:

Keine Daten verlassen den Server — vollständig lokal
Kein API-Vertrag mit US-Anbietern — kein Drittland-Transfer
Vollständige Kontrolle über Modellversion und Updates

Citation

"Ollama." Open Cognition Commons Foundation. https://opencognitioncommons.org/ko/glossary/ollama. CC-BY 4.0.

Machine-readable metadata

{
  "@context": "https://schema.org",
  "@type": "DefinedTerm",
  "name": "Ollama",
  "description": "Ollama ist ein Open-Source-Tool, das den lokalen Betrieb von KI-Sprachmodellen vereinfacht — mit automatischem Download, GPU-Nutzung, OpenAI-kompatibler REST-API und einfacher Modellverwaltung.\n",
  "url": "https://opencognitioncommons.org/ko/glossary/ollama",
  "license": "https://creativecommons.org/licenses/by/4.0/",
  "alternateName": [
    "Ollama"
  ]
}