Skip to main content
← Glossary
technology

AI 추론

Inference · KI-Inferenz · Model Inference

1 min read 2026년 5월 19일
KI-Inference bezeichnet den Prozess, ein bereits trainiertes KI-Modell auf neue Eingabedaten anzuwenden um Ausgaben (Vorhersagen, Texte, Bilder) zu generieren.
🟢 Plain Language

Inference (KI) bedeutet: KI-Inference bezeichnet den Prozess, ein bereits trainiertes KI-Modell auf neue Eingabedaten anzuwenden um Ausgaben (Vorhersagen, Texte, Bilder) zu generieren. Das ist wichtig, weil KI-Systeme heute überall eingesetzt werden und Regeln brauchen, damit sie sicher und fair funktionieren.

🔵 Expert Level

KI-Inference bezeichnet den Prozess, ein bereits trainiertes KI-Modell auf neue Eingabedaten anzuwenden um Ausgaben (Vorhersagen, Texte, Bilder) zu generieren. [IIO Framework] Inference: Nutzung eines trainierten KI-Modells für Vorhersagen/Ausgaben. Gegensatz: Training (Modell lernen). IIO AI Hub = Inference-Infrastruktur. [IIO Framework] Ollama: Open-source local LLM inference server. IIO uses Ollama on inhzgx9 (RTX PRO 6000 Blackwell, 96GB VRAM) to serve: qwen2.5:32b (general chat), llama3.2-vision:11b (image analysis), nomic-embed-text (embeddings). Ollama API is OpenAI-compatible. LiteLLM proxies Ollama models under the aliases: [NIST GenAI RMF] Resilient 2.4. Data Privacy GAI systems raise several risks to privacy. GAI system training requires large volumes of data, which in some cases may include personal data. The use of personal data for GAI training raises risks to widely accepted privacy principles, including to transparency, individu

Definition

Inference ist die Nutzungsphase eines KI-Modells — im Gegensatz zum Training:

PhaseBeschreibungRessourcen
TrainingModell lernt aus DatenSehr viel GPU, Wochen
Fine-TuningSpezialisierungMittel GPU, Stunden
InferenceModell generiert AusgabenWeniger GPU, Millisekunden

Inference-Typen

Online Inference (Real-time)

  • Anfrage → sofortige Antwort
  • Anwendung: Chat, API, interaktive Systeme
  • IIO AI Hub: lokale Inference via Ollama

Batch Inference

  • Viele Anfragen gesammelt verarbeiten
  • Anwendung: Dokument-Analyse, Datensatz-Verarbeitung
  • Effizienter als Online-Inference

Edge Inference

  • Inference direkt auf Endgerät (kein Cloud)
  • Anwendung: Mobile Apps, IoT
  • Datenschutzvorteil: Daten verlassen Gerät nicht

Inference-Performance-Metriken

MetrikBeschreibungTypisch
LatencyZeit bis erste Ausgabe100ms–5s
ThroughputAnfragen/Sekunde1–100
TTFTTime To First Token50ms–2s
Tokens/sGenerierungsgeschwindigkeit10–100

IIO AI Hub Inference-Stack

User/Agent → LiteLLM (Routing, Aliase) → Ollama → GPU

                             model: qwen2.5:7b    (ops-fast)
                             model: qwen2.5:32b   (code-generate)
                             model: qwen2.5:72b   (reason-deep)

Governance für Inference

  • Logging: Inference-Requests optional loggen (Opt-in, DSGVO)
  • Monitoring: Token-Verbrauch, Kosten, Latenz überwachen
  • Access Control: Keycloak SSO, kein anonymer Zugang
  • Model Versioning: Welches Modell hat welche Ausgabe produziert?

Citation

"AI 추론." Open Cognition Commons Foundation. https://opencognitioncommons.org/ko/glossary/inference. CC-BY 4.0.
Machine-readable metadata
{
  "@context": "https://schema.org",
  "@type": "DefinedTerm",
  "name": "AI 추론",
  "description": "KI-Inference bezeichnet den Prozess, ein bereits trainiertes KI-Modell auf neue Eingabedaten anzuwenden um Ausgaben (Vorhersagen, Texte, Bilder) zu generieren.\n",
  "url": "https://opencognitioncommons.org/ko/glossary/inference",
  "license": "https://creativecommons.org/licenses/by/4.0/",
  "alternateName": [
    "Inference",
    "KI-Inferenz",
    "Model Inference"
  ]
}