LiteLLM bedeutet: LiteLLM ist ein Open-Source-Proxy-Server, der alle großen LLM-APIs (OpenAI, Anthropic, Gemini, Azure, Ollama, HuggingFace u. Das ist wichtig, weil KI-Systeme heute überall eingesetzt werden und Regeln brauchen, damit sie sicher und fair funktionieren.
LiteLLM ist ein Open-Source-Proxy-Server, der alle großen LLM-APIs (OpenAI, Anthropic, Gemini, Azure, Ollama, HuggingFace u.v.m.) hinter einer einheitlichen OpenAI-kompatiblen REST-API abstrahiert. [IIO Framework] LiteLLM: Open-Source-Gateway der verschiedene KI-APIs vereinheitlicht (OpenAI-kompatible API). IIO nutzt LiteLLM als Routing-Layer im AI Hub. [IIO Operations] IIO AI Hub inhzgx9: dedicated GPU server with 96GB VRAM running LiteLLM (9 models), Ollama (3 models), ComfyUI (image generation). Models available: Qwen2.5-7B (RAG/chat), Llama-3.1-8B, Mistral-7B, SDXL-Turbo 1.0 FP16 (image generation). LiteLLM master key: sk-iio-aihub-master-63a0f8b333d56fc5ebc9ec [IIO Framework] AI Hub: Zentrale Infrastruktur für lokale KI-Modelle. IIO AI Hub: Ollama + LiteLLM + OpenWebUI auf dedizierten GPU-Servern. Privacy by default, DSGVO-konform.
Was ist LiteLLM?
LiteLLM löst das “too many APIs”-Problem: Statt OpenAI-, Anthropic-, Ollama-API separat zu integrieren, kommunizieren alle Clients mit einem LiteLLM-Proxy.
Client (openai SDK)
↓
LiteLLM Proxy
┌─────────────────────────────────────┐
│ ops-fast → qwen2.5:7b (Ollama) │
│ code-gen → codestral (Ollama) │
│ reason → qwen2.5:72b (Ollama) │
│ fallback → gpt-4o (OpenAI API) │
└─────────────────────────────────────┘
IIO Aliase
IIO definiert semantische Aliase statt Modellnamen:
| Alias | Modell | Use Case |
|---|---|---|
ops-fast | qwen2.5:7b | Schnelle Ops-Tasks |
code-generate | deepseek-coder-v2 | Code schreiben |
code-review | codestral:22b | Code reviewen |
reason-medium | qwen2.5:32b | Analyse, Planung |
reason-deep | qwen2.5:72b | Komplexe Aufgaben |
fallback-gpt4o | gpt-4o (aimlapi) | Fallback extern |
Features
- Budget-Limits — pro Team, User, API-Key
- Logging — alle Requests auf Wunsch loggen
- Caching — semantisches Response-Caching
- Load Balancing — zwischen mehreren Modellen
- Fallback — bei Fehler auf anderes Modell
- Rate Limiting — pro Key/Minute
DSGVO-Aspekt
LiteLLM ermöglicht Policy-Enforcement:
- Anfragen die Personendaten enthalten → nur lokale Modelle (Ollama)
- Anonyme/öffentliche Anfragen → auch externe Modelle erlaubt
- Alle Routing-Entscheidungen im Audit Log
Citation
"LiteLLM." Open Cognition Commons Foundation. https://opencognitioncommons.org/ko/glossary/litellm. CC-BY 4.0. Machine-readable metadata
{
"@context": "https://schema.org",
"@type": "DefinedTerm",
"name": "LiteLLM",
"description": "LiteLLM ist ein Open-Source-Proxy-Server, der alle großen LLM-APIs (OpenAI, Anthropic, Gemini, Azure, Ollama, HuggingFace u.v.m.) hinter einer einheitlichen OpenAI-kompatiblen REST-API abstrahiert.\n",
"url": "https://opencognitioncommons.org/ko/glossary/litellm",
"license": "https://creativecommons.org/licenses/by/4.0/",
"alternateName": [
"LiteLLM",
"LiteLLM Proxy"
]
}