Ir para o conteúdo principal
← Glossary
concept

Trust & Safety (AI)

Trust & Safety · T&S · TrustSafety

1 min May 19, 2026
Trust & Safety (T&S) für KI bezeichnet die Praktiken, Prozesse und Technologien, die sicherstellen, dass KI-Systeme vertrauenswürdig betrieben werden — mit Schutz vor Missbrauch, schädlichen Ausgaben und unerwünschten Verhaltensweisen.
🟢 Plain Language

Trust & Safety bei KI bedeutet: Systeme so gestalten dass sie vertrauenswürdig sind und keine Schäden verursachen.

🔵 Expert Level

Trust & Safety als Operations-Disziplin: Content Moderation, Harm Detection, Policy Enforcement, Adversarial Robustheit. Unterschied zu AI Safety (technisch, alignment-fokussiert): T&S ist operativ, plattformbezogen. EU AI Act Art. 9: Risikomanagement als T&S-Framework. GPAI-Verhaltenskodex: T&S als Kernanforderung für General-Purpose-Modelle.

Trust & Safety Domains

DomainBeschreibungBeispiele
Content SafetySchädliche Ausgaben verhindernHate Speech, Desinformation
Model SafetyModell-Verhalten steuernJailbreak-Prävention
Platform SafetyPlattform-MissbrauchRate-Limiting, Abuse Detection
User SafetySchutz vor ManipulationTransparenzpflichten
Societal SafetyGesellschaftliche RisikenWahlbeeinflussung, Deepfakes

EU AI Act und T&S

BedrohungRegulierung
KI-generierte DesinformationArt. 50 (Kennzeichnungspflicht)
Deepfakes/Synthetische MedienArt. 50 Abs. 4 (Kennzeichnung)
Soziale ManipulationArt. 5 (verbotene Praktiken)
Biometrische ÜberwachungArt. 5 (verboten, mit Ausnahmen)

T&S in der Praxis

Content Moderation

KI-generierte Inhalte prüfen:

  1. Pre-generation: System-Prompt mit Guardrails
  2. Post-generation: Output-Filter, Classifier
  3. Human Review: HITL für Grenzfälle

Missbrauchs-Prävention

  • Rate-Limiting pro User/API-Key
  • Anomalie-Detection für Missbrauchsmuster
  • Blacklisting bekannter Angriffsvektoren

IIO T&S Maßnahmen

IIO implementiert T&S durch:

  • HITL-Gates bei risikobehafteten Ausgaben
  • Content-Filter in LiteLLM für schädliche Anfragen
  • Audit Trail für forensische Analyse
  • Scope-Isolation verhindert Agent-Missbrauch

Citação

"Trust & Safety (AI)." Open Cognition Commons Foundation. https://opencognitioncommons.org/pt/glossary/trust-safety. CC-BY 4.0.
Metadados legíveis por máquina
{
  "@context": "https://schema.org",
  "@type": "DefinedTerm",
  "name": "Trust & Safety (AI)",
  "description": "Trust & Safety (T&S) für KI bezeichnet die Praktiken, Prozesse und Technologien, die sicherstellen, dass KI-Systeme vertrauenswürdig betrieben werden — mit Schutz vor Missbrauch, schädlichen Ausgaben und unerwünschten Verhaltensweisen.\n",
  "url": "https://opencognitioncommons.org/pt/glossary/trust-safety",
  "license": "https://creativecommons.org/licenses/by/4.0/",
  "alternateName": [
    "Trust & Safety",
    "T&S",
    "TrustSafety"
  ]
}