🟢 Plain Language
Wenn ein trainiertes KI-Modell eine neue Eingabe bekommt und eine Antwort produziert — der eigentliche Betrieb des Modells.
🔵 Expert Level
Inference vs. Training: Training = Gewichte lernen (Wochen, GPU-Cluster), Inference = Gewichte anwenden (Millisekunden, optimierbar). Inference-Optimierung: Quantisierung (FP32→INT4: 8x Kompression), KV-Cache, Speculative Decoding, Batching. LiteLLM als unified Inference-Gateway: routet zu OpenAI, Anthropic, lokalen Modellen via einheitliche API.
Definition
Inference ist die Nutzungsphase eines KI-Modells — im Gegensatz zum Training:
| Phase | Beschreibung | Ressourcen |
|---|---|---|
| Training | Modell lernt aus Daten | Sehr viel GPU, Wochen |
| Fine-Tuning | Spezialisierung | Mittel GPU, Stunden |
| Inference | Modell generiert Ausgaben | Weniger GPU, Millisekunden |
Inference-Typen
Online Inference (Real-time)
- Anfrage → sofortige Antwort
- Anwendung: Chat, API, interaktive Systeme
- IIO AI Hub: lokale Inference via Ollama
Batch Inference
- Viele Anfragen gesammelt verarbeiten
- Anwendung: Dokument-Analyse, Datensatz-Verarbeitung
- Effizienter als Online-Inference
Edge Inference
- Inference direkt auf Endgerät (kein Cloud)
- Anwendung: Mobile Apps, IoT
- Datenschutzvorteil: Daten verlassen Gerät nicht
Inference-Performance-Metriken
| Metrik | Beschreibung | Typisch |
|---|---|---|
| Latency | Zeit bis erste Ausgabe | 100ms–5s |
| Throughput | Anfragen/Sekunde | 1–100 |
| TTFT | Time To First Token | 50ms–2s |
| Tokens/s | Generierungsgeschwindigkeit | 10–100 |
IIO AI Hub Inference-Stack
User/Agent → LiteLLM (Routing, Aliase) → Ollama → GPU
↓
model: qwen2.5:7b (ops-fast)
model: qwen2.5:32b (code-generate)
model: qwen2.5:72b (reason-deep)
Governance für Inference
- Logging: Inference-Requests optional loggen (Opt-in, DSGVO)
- Monitoring: Token-Verbrauch, Kosten, Latenz überwachen
- Access Control: Keycloak SSO, kein anonymer Zugang
- Model Versioning: Welches Modell hat welche Ausgabe produziert?
引用
"AI Inference." Open Cognition Commons Foundation. https://opencognitioncommons.org/zh/glossary/inference. CC-BY 4.0. 机器可读元数据
{
"@context": "https://schema.org",
"@type": "DefinedTerm",
"name": "AI Inference",
"description": "KI-Inference bezeichnet den Prozess, ein bereits trainiertes KI-Modell auf neue Eingabedaten anzuwenden um Ausgaben (Vorhersagen, Texte, Bilder) zu generieren.\n",
"url": "https://opencognitioncommons.org/zh/glossary/inference",
"license": "https://creativecommons.org/licenses/by/4.0/",
"alternateName": [
"Inference",
"KI-Inferenz",
"Model Inference"
]
}