🟢 Plain Language

LiteLLM bedeutet: LiteLLM ist ein Open-Source-Proxy-Server, der alle großen LLM-APIs (OpenAI, Anthropic, Gemini, Azure, Ollama, HuggingFace u. Das ist wichtig, weil KI-Systeme heute überall eingesetzt werden und Regeln brauchen, damit sie sicher und fair funktionieren.

🔵 Expert Level

LiteLLM ist ein Open-Source-Proxy-Server, der alle großen LLM-APIs (OpenAI, Anthropic, Gemini, Azure, Ollama, HuggingFace u.v.m.) hinter einer einheitlichen OpenAI-kompatiblen REST-API abstrahiert. [IIO Framework] LiteLLM: Open-Source-Gateway der verschiedene KI-APIs vereinheitlicht (OpenAI-kompatible API). IIO nutzt LiteLLM als Routing-Layer im AI Hub. [IIO Operations] IIO AI Hub inhzgx9: dedicated GPU server with 96GB VRAM running LiteLLM (9 models), Ollama (3 models), ComfyUI (image generation). Models available: Qwen2.5-7B (RAG/chat), Llama-3.1-8B, Mistral-7B, SDXL-Turbo 1.0 FP16 (image generation). LiteLLM master key: sk-iio-aihub-master-63a0f8b333d56fc5ebc9ec [IIO Framework] AI Hub: Zentrale Infrastruktur für lokale KI-Modelle. IIO AI Hub: Ollama + LiteLLM + OpenWebUI auf dedizierten GPU-Servern. Privacy by default, DSGVO-konform.

Was ist LiteLLM?

LiteLLM löst das “too many APIs”-Problem: Statt OpenAI-, Anthropic-, Ollama-API separat zu integrieren, kommunizieren alle Clients mit einem LiteLLM-Proxy.

Client (openai SDK)
        ↓
   LiteLLM Proxy
   ┌─────────────────────────────────────┐
   │  ops-fast  → qwen2.5:7b (Ollama)   │
   │  code-gen  → codestral (Ollama)     │
   │  reason    → qwen2.5:72b (Ollama)   │
   │  fallback  → gpt-4o (OpenAI API)    │
   └─────────────────────────────────────┘

IIO Aliase

IIO definiert semantische Aliase statt Modellnamen:

Alias	Modell	Use Case
`ops-fast`	qwen2.5:7b	Schnelle Ops-Tasks
`code-generate`	deepseek-coder-v2	Code schreiben
`code-review`	codestral:22b	Code reviewen
`reason-medium`	qwen2.5:32b	Analyse, Planung
`reason-deep`	qwen2.5:72b	Komplexe Aufgaben
`fallback-gpt4o`	gpt-4o (aimlapi)	Fallback extern

Features

Budget-Limits — pro Team, User, API-Key
Logging — alle Requests auf Wunsch loggen
Caching — semantisches Response-Caching
Load Balancing — zwischen mehreren Modellen
Fallback — bei Fehler auf anderes Modell
Rate Limiting — pro Key/Minute

DSGVO-Aspekt

LiteLLM ermöglicht Policy-Enforcement:

Anfragen die Personendaten enthalten → nur lokale Modelle (Ollama)
Anonyme/öffentliche Anfragen → auch externe Modelle erlaubt
Alle Routing-Entscheidungen im Audit Log

Citation

"LiteLLM." Open Cognition Commons Foundation. https://opencognitioncommons.org/ko/glossary/litellm. CC-BY 4.0.

Machine-readable metadata

{
  "@context": "https://schema.org",
  "@type": "DefinedTerm",
  "name": "LiteLLM",
  "description": "LiteLLM ist ein Open-Source-Proxy-Server, der alle großen LLM-APIs (OpenAI, Anthropic, Gemini, Azure, Ollama, HuggingFace u.v.m.) hinter einer einheitlichen OpenAI-kompatiblen REST-API abstrahiert.\n",
  "url": "https://opencognitioncommons.org/ko/glossary/litellm",
  "license": "https://creativecommons.org/licenses/by/4.0/",
  "alternateName": [
    "LiteLLM",
    "LiteLLM Proxy"
  ]
}