🟢 Plain Language

Inference (KI) bedeutet: KI-Inference bezeichnet den Prozess, ein bereits trainiertes KI-Modell auf neue Eingabedaten anzuwenden um Ausgaben (Vorhersagen, Texte, Bilder) zu generieren. Das ist wichtig, weil KI-Systeme heute überall eingesetzt werden und Regeln brauchen, damit sie sicher und fair funktionieren.

🔵 Expert Level

KI-Inference bezeichnet den Prozess, ein bereits trainiertes KI-Modell auf neue Eingabedaten anzuwenden um Ausgaben (Vorhersagen, Texte, Bilder) zu generieren. [IIO Framework] Inference: Nutzung eines trainierten KI-Modells für Vorhersagen/Ausgaben. Gegensatz: Training (Modell lernen). IIO AI Hub = Inference-Infrastruktur. [IIO Framework] Ollama: Open-source local LLM inference server. IIO uses Ollama on inhzgx9 (RTX PRO 6000 Blackwell, 96GB VRAM) to serve: qwen2.5:32b (general chat), llama3.2-vision:11b (image analysis), nomic-embed-text (embeddings). Ollama API is OpenAI-compatible. LiteLLM proxies Ollama models under the aliases: [NIST GenAI RMF] Resilient 2.4. Data Privacy GAI systems raise several risks to privacy. GAI system training requires large volumes of data, which in some cases may include personal data. The use of personal data for GAI training raises risks to widely accepted privacy principles, including to transparency, individu

Definition

Inference ist die Nutzungsphase eines KI-Modells — im Gegensatz zum Training:

Phase	Beschreibung	Ressourcen
Training	Modell lernt aus Daten	Sehr viel GPU, Wochen
Fine-Tuning	Spezialisierung	Mittel GPU, Stunden
Inference	Modell generiert Ausgaben	Weniger GPU, Millisekunden

Inference-Typen

Online Inference (Real-time)

Anfrage → sofortige Antwort
Anwendung: Chat, API, interaktive Systeme
IIO AI Hub: lokale Inference via Ollama

Batch Inference

Viele Anfragen gesammelt verarbeiten
Anwendung: Dokument-Analyse, Datensatz-Verarbeitung
Effizienter als Online-Inference

Edge Inference

Inference direkt auf Endgerät (kein Cloud)
Anwendung: Mobile Apps, IoT
Datenschutzvorteil: Daten verlassen Gerät nicht

Inference-Performance-Metriken

Metrik	Beschreibung	Typisch
Latency	Zeit bis erste Ausgabe	100ms–5s
Throughput	Anfragen/Sekunde	1–100
TTFT	Time To First Token	50ms–2s
Tokens/s	Generierungsgeschwindigkeit	10–100

IIO AI Hub Inference-Stack

User/Agent → LiteLLM (Routing, Aliase) → Ollama → GPU
                                    ↓
                             model: qwen2.5:7b    (ops-fast)
                             model: qwen2.5:32b   (code-generate)
                             model: qwen2.5:72b   (reason-deep)

Governance für Inference

Logging: Inference-Requests optional loggen (Opt-in, DSGVO)
Monitoring: Token-Verbrauch, Kosten, Latenz überwachen
Access Control: Keycloak SSO, kein anonymer Zugang
Model Versioning: Welches Modell hat welche Ausgabe produziert?

Citation

"AI 추론." Open Cognition Commons Foundation. https://opencognitioncommons.org/ko/glossary/inference. CC-BY 4.0.

Machine-readable metadata

{
  "@context": "https://schema.org",
  "@type": "DefinedTerm",
  "name": "AI 추론",
  "description": "KI-Inference bezeichnet den Prozess, ein bereits trainiertes KI-Modell auf neue Eingabedaten anzuwenden um Ausgaben (Vorhersagen, Texte, Bilder) zu generieren.\n",
  "url": "https://opencognitioncommons.org/ko/glossary/inference",
  "license": "https://creativecommons.org/licenses/by/4.0/",
  "alternateName": [
    "Inference",
    "KI-Inferenz",
    "Model Inference"
  ]
}