🟢 Plain Language

Wenn ein trainiertes KI-Modell eine neue Eingabe bekommt und eine Antwort produziert — der eigentliche Betrieb des Modells.

🔵 Expert Level

Inference vs. Training: Training = Gewichte lernen (Wochen, GPU-Cluster), Inference = Gewichte anwenden (Millisekunden, optimierbar). Inference-Optimierung: Quantisierung (FP32→INT4: 8x Kompression), KV-Cache, Speculative Decoding, Batching. LiteLLM als unified Inference-Gateway: routet zu OpenAI, Anthropic, lokalen Modellen via einheitliche API.

Definition

Inference ist die Nutzungsphase eines KI-Modells — im Gegensatz zum Training:

Phase	Beschreibung	Ressourcen
Training	Modell lernt aus Daten	Sehr viel GPU, Wochen
Fine-Tuning	Spezialisierung	Mittel GPU, Stunden
Inference	Modell generiert Ausgaben	Weniger GPU, Millisekunden

Inference-Typen

Online Inference (Real-time)

Anfrage → sofortige Antwort
Anwendung: Chat, API, interaktive Systeme
IIO AI Hub: lokale Inference via Ollama

Batch Inference

Viele Anfragen gesammelt verarbeiten
Anwendung: Dokument-Analyse, Datensatz-Verarbeitung
Effizienter als Online-Inference

Edge Inference

Inference direkt auf Endgerät (kein Cloud)
Anwendung: Mobile Apps, IoT
Datenschutzvorteil: Daten verlassen Gerät nicht

Inference-Performance-Metriken

Metrik	Beschreibung	Typisch
Latency	Zeit bis erste Ausgabe	100ms–5s
Throughput	Anfragen/Sekunde	1–100
TTFT	Time To First Token	50ms–2s
Tokens/s	Generierungsgeschwindigkeit	10–100

IIO AI Hub Inference-Stack

User/Agent → LiteLLM (Routing, Aliase) → Ollama → GPU
                                    ↓
                             model: qwen2.5:7b    (ops-fast)
                             model: qwen2.5:32b   (code-generate)
                             model: qwen2.5:72b   (reason-deep)

Governance für Inference

Logging: Inference-Requests optional loggen (Opt-in, DSGVO)
Monitoring: Token-Verbrauch, Kosten, Latenz überwachen
Access Control: Keycloak SSO, kein anonymer Zugang
Model Versioning: Welches Modell hat welche Ausgabe produziert?

引用

"AI Inference." Open Cognition Commons Foundation. https://opencognitioncommons.org/zh/glossary/inference. CC-BY 4.0.

机器可读元数据

{
  "@context": "https://schema.org",
  "@type": "DefinedTerm",
  "name": "AI Inference",
  "description": "KI-Inference bezeichnet den Prozess, ein bereits trainiertes KI-Modell auf neue Eingabedaten anzuwenden um Ausgaben (Vorhersagen, Texte, Bilder) zu generieren.\n",
  "url": "https://opencognitioncommons.org/zh/glossary/inference",
  "license": "https://creativecommons.org/licenses/by/4.0/",
  "alternateName": [
    "Inference",
    "KI-Inferenz",
    "Model Inference"
  ]
}