🟢 Plain Language

Trust & Safety bei KI bedeutet: Systeme so gestalten dass sie vertrauenswürdig sind und keine Schäden verursachen.

🔵 Expert Level

Trust & Safety als Operations-Disziplin: Content Moderation, Harm Detection, Policy Enforcement, Adversarial Robustheit. Unterschied zu AI Safety (technisch, alignment-fokussiert): T&S ist operativ, plattformbezogen. EU AI Act Art. 9: Risikomanagement als T&S-Framework. GPAI-Verhaltenskodex: T&S als Kernanforderung für General-Purpose-Modelle.

Trust & Safety Domains

Domain	Beschreibung	Beispiele
Content Safety	Schädliche Ausgaben verhindern	Hate Speech, Desinformation
Model Safety	Modell-Verhalten steuern	Jailbreak-Prävention
Platform Safety	Plattform-Missbrauch	Rate-Limiting, Abuse Detection
User Safety	Schutz vor Manipulation	Transparenzpflichten
Societal Safety	Gesellschaftliche Risiken	Wahlbeeinflussung, Deepfakes

EU AI Act und T&S

Bedrohung	Regulierung
KI-generierte Desinformation	Art. 50 (Kennzeichnungspflicht)
Deepfakes/Synthetische Medien	Art. 50 Abs. 4 (Kennzeichnung)
Soziale Manipulation	Art. 5 (verbotene Praktiken)
Biometrische Überwachung	Art. 5 (verboten, mit Ausnahmen)

T&S in der Praxis

Content Moderation

KI-generierte Inhalte prüfen:

Pre-generation: System-Prompt mit Guardrails
Post-generation: Output-Filter, Classifier
Human Review: HITL für Grenzfälle

Missbrauchs-Prävention

Rate-Limiting pro User/API-Key
Anomalie-Detection für Missbrauchsmuster
Blacklisting bekannter Angriffsvektoren

IIO T&S Maßnahmen

IIO implementiert T&S durch:

HITL-Gates bei risikobehafteten Ausgaben
Content-Filter in LiteLLM für schädliche Anfragen
Audit Trail für forensische Analyse
Scope-Isolation verhindert Agent-Missbrauch

Citação

"Trust & Safety (AI)." Open Cognition Commons Foundation. https://opencognitioncommons.org/pt/glossary/trust-safety. CC-BY 4.0.

Metadados legíveis por máquina

{
  "@context": "https://schema.org",
  "@type": "DefinedTerm",
  "name": "Trust & Safety (AI)",
  "description": "Trust & Safety (T&S) für KI bezeichnet die Praktiken, Prozesse und Technologien, die sicherstellen, dass KI-Systeme vertrauenswürdig betrieben werden — mit Schutz vor Missbrauch, schädlichen Ausgaben und unerwünschten Verhaltensweisen.\n",
  "url": "https://opencognitioncommons.org/pt/glossary/trust-safety",
  "license": "https://creativecommons.org/licenses/by/4.0/",
  "alternateName": [
    "Trust & Safety",
    "T&S",
    "TrustSafety"
  ]
}