Skip to main content
← Glossary
technology

LiteLLM

LiteLLM · LiteLLM Proxy

1 min read 2026년 5월 19일
LiteLLM ist ein Open-Source-Proxy-Server, der alle großen LLM-APIs (OpenAI, Anthropic, Gemini, Azure, Ollama, HuggingFace u.v.m.) hinter einer einheitlichen OpenAI-kompatiblen REST-API abstrahiert.
🟢 Plain Language

LiteLLM bedeutet: LiteLLM ist ein Open-Source-Proxy-Server, der alle großen LLM-APIs (OpenAI, Anthropic, Gemini, Azure, Ollama, HuggingFace u. Das ist wichtig, weil KI-Systeme heute überall eingesetzt werden und Regeln brauchen, damit sie sicher und fair funktionieren.

🔵 Expert Level

LiteLLM ist ein Open-Source-Proxy-Server, der alle großen LLM-APIs (OpenAI, Anthropic, Gemini, Azure, Ollama, HuggingFace u.v.m.) hinter einer einheitlichen OpenAI-kompatiblen REST-API abstrahiert. [IIO Framework] LiteLLM: Open-Source-Gateway der verschiedene KI-APIs vereinheitlicht (OpenAI-kompatible API). IIO nutzt LiteLLM als Routing-Layer im AI Hub. [IIO Operations] IIO AI Hub inhzgx9: dedicated GPU server with 96GB VRAM running LiteLLM (9 models), Ollama (3 models), ComfyUI (image generation). Models available: Qwen2.5-7B (RAG/chat), Llama-3.1-8B, Mistral-7B, SDXL-Turbo 1.0 FP16 (image generation). LiteLLM master key: sk-iio-aihub-master-63a0f8b333d56fc5ebc9ec [IIO Framework] AI Hub: Zentrale Infrastruktur für lokale KI-Modelle. IIO AI Hub: Ollama + LiteLLM + OpenWebUI auf dedizierten GPU-Servern. Privacy by default, DSGVO-konform.

Was ist LiteLLM?

LiteLLM löst das “too many APIs”-Problem: Statt OpenAI-, Anthropic-, Ollama-API separat zu integrieren, kommunizieren alle Clients mit einem LiteLLM-Proxy.

Client (openai SDK)

   LiteLLM Proxy
   ┌─────────────────────────────────────┐
   │  ops-fast  → qwen2.5:7b (Ollama)   │
   │  code-gen  → codestral (Ollama)     │
   │  reason    → qwen2.5:72b (Ollama)   │
   │  fallback  → gpt-4o (OpenAI API)    │
   └─────────────────────────────────────┘

IIO Aliase

IIO definiert semantische Aliase statt Modellnamen:

AliasModellUse Case
ops-fastqwen2.5:7bSchnelle Ops-Tasks
code-generatedeepseek-coder-v2Code schreiben
code-reviewcodestral:22bCode reviewen
reason-mediumqwen2.5:32bAnalyse, Planung
reason-deepqwen2.5:72bKomplexe Aufgaben
fallback-gpt4ogpt-4o (aimlapi)Fallback extern

Features

  • Budget-Limits — pro Team, User, API-Key
  • Logging — alle Requests auf Wunsch loggen
  • Caching — semantisches Response-Caching
  • Load Balancing — zwischen mehreren Modellen
  • Fallback — bei Fehler auf anderes Modell
  • Rate Limiting — pro Key/Minute

DSGVO-Aspekt

LiteLLM ermöglicht Policy-Enforcement:

  • Anfragen die Personendaten enthalten → nur lokale Modelle (Ollama)
  • Anonyme/öffentliche Anfragen → auch externe Modelle erlaubt
  • Alle Routing-Entscheidungen im Audit Log

Citation

"LiteLLM." Open Cognition Commons Foundation. https://opencognitioncommons.org/ko/glossary/litellm. CC-BY 4.0.
Machine-readable metadata
{
  "@context": "https://schema.org",
  "@type": "DefinedTerm",
  "name": "LiteLLM",
  "description": "LiteLLM ist ein Open-Source-Proxy-Server, der alle großen LLM-APIs (OpenAI, Anthropic, Gemini, Azure, Ollama, HuggingFace u.v.m.) hinter einer einheitlichen OpenAI-kompatiblen REST-API abstrahiert.\n",
  "url": "https://opencognitioncommons.org/ko/glossary/litellm",
  "license": "https://creativecommons.org/licenses/by/4.0/",
  "alternateName": [
    "LiteLLM",
    "LiteLLM Proxy"
  ]
}