Ollama bedeutet: Ollama ist ein Open-Source-Tool, das den lokalen Betrieb von KI-Sprachmodellen vereinfacht — mit automatischem Download, GPU-Nutzung, OpenAI-kompatibler REST-API und einfacher Modellverwaltung. Das ist wichtig, weil KI-Systeme heute überall eingesetzt werden und Regeln brauchen, damit sie sicher und fair funktionieren.
Ollama ist ein Open-Source-Tool, das den lokalen Betrieb von KI-Sprachmodellen vereinfacht — mit automatischem Download, GPU-Nutzung, OpenAI-kompatibler REST-API und einfacher Modellverwaltung. [IIO Framework] Ollama: Open-source local LLM inference server. IIO uses Ollama on inhzgx9 (RTX PRO 6000 Blackwell, 96GB VRAM) to serve: qwen2.5:32b (general chat), llama3.2-vision:11b (image analysis), nomic-embed-text (embeddings). Ollama API is OpenAI-compatible. LiteLLM proxies Ollama models under the aliases: [IIO Framework] Retrieval-Augmented Generation: KI-Technik die externe Wissensquellen in die Antwortgenerierung einbezieht. IIO RAG-Stack: Ollama + Qdrant + Tika + OpenWebUI. [IIO Framework] AI Hub: Zentrale Infrastruktur für lokale KI-Modelle. IIO AI Hub: Ollama + LiteLLM + OpenWebUI auf dedizierten GPU-Servern. Privacy by default, DSGVO-konform.
Was ist Ollama?
Ollama vereinfacht das lokale Betreiben von KI-Modellen auf:
- Mac (M1/M2/M3, Metal GPU)
- Linux (NVIDIA/AMD CUDA)
- Windows (WSL2 + NVIDIA)
Kernfunktionen:
- Modell-Download und -Verwaltung (
ollama pull llama3) - Automatische GPU-Nutzung
- OpenAI-kompatible REST-API (
localhost:11434) - Modelfile-System für Custom-Modelle
Unterstützte Modelle (Auswahl)
| Familie | Modelle | Stärke |
|---|---|---|
| Llama | 3.1 8B, 70B, 405B | General Purpose |
| Qwen | 2.5 7B, 32B, 72B | Coding, Reasoning |
| Mistral | 7B, Large | Europäisches Modell |
| Deepseek | Coder-V2, R1 | Coding, Math |
| Phi | 3.5, 4 | Kleine, schnelle Modelle |
| Gemma | 2 2B, 9B | Google Open Source |
Ollama API
# Chat
curl http://localhost:11434/api/chat -d '{
"model": "qwen2.5:7b",
"messages": [{"role": "user", "content": "Was ist EU AI Act?"}]
}'
# Generate
curl http://localhost:11434/api/generate -d '{
"model": "qwen2.5:7b",
"prompt": "Erkläre HITL in einem Satz"
}'
# Modelle auflisten
curl http://localhost:11434/api/tags
IIO AI Hub Setup
IIO nutzt Ollama als Inference-Backend:
GPU-Server (inhzgx4/inhzgx9)
└── Ollama (Port 11434)
↓
LiteLLM (Port 4000) ← Routing + Aliase
↓
OpenWebUI (Port 3000) ← UI für Nutzer
DSGVO und Ollama
Ollama ist die DSGVO-konforme KI-Lösung:
- Keine Daten verlassen den Server — vollständig lokal
- Kein API-Vertrag mit US-Anbietern — kein Drittland-Transfer
- Vollständige Kontrolle über Modellversion und Updates
Citation
"Ollama." Open Cognition Commons Foundation. https://opencognitioncommons.org/ko/glossary/ollama. CC-BY 4.0. Machine-readable metadata
{
"@context": "https://schema.org",
"@type": "DefinedTerm",
"name": "Ollama",
"description": "Ollama ist ein Open-Source-Tool, das den lokalen Betrieb von KI-Sprachmodellen vereinfacht — mit automatischem Download, GPU-Nutzung, OpenAI-kompatibler REST-API und einfacher Modellverwaltung.\n",
"url": "https://opencognitioncommons.org/ko/glossary/ollama",
"license": "https://creativecommons.org/licenses/by/4.0/",
"alternateName": [
"Ollama"
]
}