🟢 Plain Language
Trust & Safety bei KI bedeutet: Systeme so gestalten dass sie vertrauenswürdig sind und keine Schäden verursachen.
🔵 Expert Level
Trust & Safety als Operations-Disziplin: Content Moderation, Harm Detection, Policy Enforcement, Adversarial Robustheit. Unterschied zu AI Safety (technisch, alignment-fokussiert): T&S ist operativ, plattformbezogen. EU AI Act Art. 9: Risikomanagement als T&S-Framework. GPAI-Verhaltenskodex: T&S als Kernanforderung für General-Purpose-Modelle.
Trust & Safety Domains
| Domain | Beschreibung | Beispiele |
|---|---|---|
| Content Safety | Schädliche Ausgaben verhindern | Hate Speech, Desinformation |
| Model Safety | Modell-Verhalten steuern | Jailbreak-Prävention |
| Platform Safety | Plattform-Missbrauch | Rate-Limiting, Abuse Detection |
| User Safety | Schutz vor Manipulation | Transparenzpflichten |
| Societal Safety | Gesellschaftliche Risiken | Wahlbeeinflussung, Deepfakes |
EU AI Act und T&S
| Bedrohung | Regulierung |
|---|---|
| KI-generierte Desinformation | Art. 50 (Kennzeichnungspflicht) |
| Deepfakes/Synthetische Medien | Art. 50 Abs. 4 (Kennzeichnung) |
| Soziale Manipulation | Art. 5 (verbotene Praktiken) |
| Biometrische Überwachung | Art. 5 (verboten, mit Ausnahmen) |
T&S in der Praxis
Content Moderation
KI-generierte Inhalte prüfen:
- Pre-generation: System-Prompt mit Guardrails
- Post-generation: Output-Filter, Classifier
- Human Review: HITL für Grenzfälle
Missbrauchs-Prävention
- Rate-Limiting pro User/API-Key
- Anomalie-Detection für Missbrauchsmuster
- Blacklisting bekannter Angriffsvektoren
IIO T&S Maßnahmen
IIO implementiert T&S durch:
- HITL-Gates bei risikobehafteten Ausgaben
- Content-Filter in LiteLLM für schädliche Anfragen
- Audit Trail für forensische Analyse
- Scope-Isolation verhindert Agent-Missbrauch
Citação
"Trust & Safety (AI)." Open Cognition Commons Foundation. https://opencognitioncommons.org/pt/glossary/trust-safety. CC-BY 4.0. Metadados legíveis por máquina
{
"@context": "https://schema.org",
"@type": "DefinedTerm",
"name": "Trust & Safety (AI)",
"description": "Trust & Safety (T&S) für KI bezeichnet die Praktiken, Prozesse und Technologien, die sicherstellen, dass KI-Systeme vertrauenswürdig betrieben werden — mit Schutz vor Missbrauch, schädlichen Ausgaben und unerwünschten Verhaltensweisen.\n",
"url": "https://opencognitioncommons.org/pt/glossary/trust-safety",
"license": "https://creativecommons.org/licenses/by/4.0/",
"alternateName": [
"Trust & Safety",
"T&S",
"TrustSafety"
]
}