Inference (KI) bedeutet: KI-Inference bezeichnet den Prozess, ein bereits trainiertes KI-Modell auf neue Eingabedaten anzuwenden um Ausgaben (Vorhersagen, Texte, Bilder) zu generieren. Das ist wichtig, weil KI-Systeme heute überall eingesetzt werden und Regeln brauchen, damit sie sicher und fair funktionieren.
KI-Inference bezeichnet den Prozess, ein bereits trainiertes KI-Modell auf neue Eingabedaten anzuwenden um Ausgaben (Vorhersagen, Texte, Bilder) zu generieren. [IIO Framework] Inference: Nutzung eines trainierten KI-Modells für Vorhersagen/Ausgaben. Gegensatz: Training (Modell lernen). IIO AI Hub = Inference-Infrastruktur. [IIO Framework] Ollama: Open-source local LLM inference server. IIO uses Ollama on inhzgx9 (RTX PRO 6000 Blackwell, 96GB VRAM) to serve: qwen2.5:32b (general chat), llama3.2-vision:11b (image analysis), nomic-embed-text (embeddings). Ollama API is OpenAI-compatible. LiteLLM proxies Ollama models under the aliases: [NIST GenAI RMF] Resilient 2.4. Data Privacy GAI systems raise several risks to privacy. GAI system training requires large volumes of data, which in some cases may include personal data. The use of personal data for GAI training raises risks to widely accepted privacy principles, including to transparency, individu
Definition
Inference ist die Nutzungsphase eines KI-Modells — im Gegensatz zum Training:
| Phase | Beschreibung | Ressourcen |
|---|---|---|
| Training | Modell lernt aus Daten | Sehr viel GPU, Wochen |
| Fine-Tuning | Spezialisierung | Mittel GPU, Stunden |
| Inference | Modell generiert Ausgaben | Weniger GPU, Millisekunden |
Inference-Typen
Online Inference (Real-time)
- Anfrage → sofortige Antwort
- Anwendung: Chat, API, interaktive Systeme
- IIO AI Hub: lokale Inference via Ollama
Batch Inference
- Viele Anfragen gesammelt verarbeiten
- Anwendung: Dokument-Analyse, Datensatz-Verarbeitung
- Effizienter als Online-Inference
Edge Inference
- Inference direkt auf Endgerät (kein Cloud)
- Anwendung: Mobile Apps, IoT
- Datenschutzvorteil: Daten verlassen Gerät nicht
Inference-Performance-Metriken
| Metrik | Beschreibung | Typisch |
|---|---|---|
| Latency | Zeit bis erste Ausgabe | 100ms–5s |
| Throughput | Anfragen/Sekunde | 1–100 |
| TTFT | Time To First Token | 50ms–2s |
| Tokens/s | Generierungsgeschwindigkeit | 10–100 |
IIO AI Hub Inference-Stack
User/Agent → LiteLLM (Routing, Aliase) → Ollama → GPU
↓
model: qwen2.5:7b (ops-fast)
model: qwen2.5:32b (code-generate)
model: qwen2.5:72b (reason-deep)
Governance für Inference
- Logging: Inference-Requests optional loggen (Opt-in, DSGVO)
- Monitoring: Token-Verbrauch, Kosten, Latenz überwachen
- Access Control: Keycloak SSO, kein anonymer Zugang
- Model Versioning: Welches Modell hat welche Ausgabe produziert?
Citation
"AI 추론." Open Cognition Commons Foundation. https://opencognitioncommons.org/ko/glossary/inference. CC-BY 4.0. Machine-readable metadata
{
"@context": "https://schema.org",
"@type": "DefinedTerm",
"name": "AI 추론",
"description": "KI-Inference bezeichnet den Prozess, ein bereits trainiertes KI-Modell auf neue Eingabedaten anzuwenden um Ausgaben (Vorhersagen, Texte, Bilder) zu generieren.\n",
"url": "https://opencognitioncommons.org/ko/glossary/inference",
"license": "https://creativecommons.org/licenses/by/4.0/",
"alternateName": [
"Inference",
"KI-Inferenz",
"Model Inference"
]
}