メインコンテンツへスキップ
← Glossary
technology

AI Inference

Inference · KI-Inferenz · Model Inference

1 min May 19, 2026
KI-Inference bezeichnet den Prozess, ein bereits trainiertes KI-Modell auf neue Eingabedaten anzuwenden um Ausgaben (Vorhersagen, Texte, Bilder) zu generieren.
🟢 Plain Language

Wenn ein trainiertes KI-Modell eine neue Eingabe bekommt und eine Antwort produziert — der eigentliche Betrieb des Modells.

🔵 Expert Level

Inference vs. Training: Training = Gewichte lernen (Wochen, GPU-Cluster), Inference = Gewichte anwenden (Millisekunden, optimierbar). Inference-Optimierung: Quantisierung (FP32→INT4: 8x Kompression), KV-Cache, Speculative Decoding, Batching. LiteLLM als unified Inference-Gateway: routet zu OpenAI, Anthropic, lokalen Modellen via einheitliche API.

Definition

Inference ist die Nutzungsphase eines KI-Modells — im Gegensatz zum Training:

PhaseBeschreibungRessourcen
TrainingModell lernt aus DatenSehr viel GPU, Wochen
Fine-TuningSpezialisierungMittel GPU, Stunden
InferenceModell generiert AusgabenWeniger GPU, Millisekunden

Inference-Typen

Online Inference (Real-time)

  • Anfrage → sofortige Antwort
  • Anwendung: Chat, API, interaktive Systeme
  • IIO AI Hub: lokale Inference via Ollama

Batch Inference

  • Viele Anfragen gesammelt verarbeiten
  • Anwendung: Dokument-Analyse, Datensatz-Verarbeitung
  • Effizienter als Online-Inference

Edge Inference

  • Inference direkt auf Endgerät (kein Cloud)
  • Anwendung: Mobile Apps, IoT
  • Datenschutzvorteil: Daten verlassen Gerät nicht

Inference-Performance-Metriken

MetrikBeschreibungTypisch
LatencyZeit bis erste Ausgabe100ms–5s
ThroughputAnfragen/Sekunde1–100
TTFTTime To First Token50ms–2s
Tokens/sGenerierungsgeschwindigkeit10–100

IIO AI Hub Inference-Stack

User/Agent → LiteLLM (Routing, Aliase) → Ollama → GPU

                             model: qwen2.5:7b    (ops-fast)
                             model: qwen2.5:32b   (code-generate)
                             model: qwen2.5:72b   (reason-deep)

Governance für Inference

  • Logging: Inference-Requests optional loggen (Opt-in, DSGVO)
  • Monitoring: Token-Verbrauch, Kosten, Latenz überwachen
  • Access Control: Keycloak SSO, kein anonymer Zugang
  • Model Versioning: Welches Modell hat welche Ausgabe produziert?

引用

"AI Inference." Open Cognition Commons Foundation. https://opencognitioncommons.org/ja/glossary/inference. CC-BY 4.0.
機械可読メタデータ
{
  "@context": "https://schema.org",
  "@type": "DefinedTerm",
  "name": "AI Inference",
  "description": "KI-Inference bezeichnet den Prozess, ein bereits trainiertes KI-Modell auf neue Eingabedaten anzuwenden um Ausgaben (Vorhersagen, Texte, Bilder) zu generieren.\n",
  "url": "https://opencognitioncommons.org/ja/glossary/inference",
  "license": "https://creativecommons.org/licenses/by/4.0/",
  "alternateName": [
    "Inference",
    "KI-Inferenz",
    "Model Inference"
  ]
}