🟢 Plain Language

Trust & Safety (KI) bedeutet: Trust & Safety (T&S) für KI bezeichnet die Praktiken, Prozesse und Technologien, die sicherstellen, dass KI-Systeme vertrauenswürdig betrieben werden — mit Schutz vor Missbrauch, schädlichen Ausgaben und unerwünschten Verhaltensweisen. Das ist wichtig, weil KI-Systeme heute überall eingesetzt werden und Regeln brauchen, damit sie sicher und fair funktionieren.

🔵 Expert Level

Trust & Safety (T&S) für KI bezeichnet die Praktiken, Prozesse und Technologien, die sicherstellen, dass KI-Systeme vertrauenswürdig betrieben werden — mit Schutz vor Missbrauch, schädlichen Ausgaben und unerwünschten Verhaltensweisen. [IIO Framework] Trust & Safety: Bereich der AI Governance der sich mit Vertrauenswürdigkeit und Sicherheit von KI-Systemen befasst. Umfasst: Modell-Sicherheit, Content-Moderation, Missbrauchs-Prävention. [EC Ethics Guidelines] communities will only be able to have confidence in the technology’s development and its applications when a clear and comprehensive framework for achieving its trustworthiness is in place. This is the path that we believe Europe should follow to become the home and leader of cutting-edge and ethica [EC Ethics Guidelines] the AI system (e.g. dual-use applications) and potential abuse of the system by malicious actors should be taken into 38 account, and steps should be taken to prevent and mitigate these. Fallback plan and general safety. AI systems should have safeguards that enable a fall back plan in case of probl

Trust & Safety Domains

Domain	Beschreibung	Beispiele
Content Safety	Schädliche Ausgaben verhindern	Hate Speech, Desinformation
Model Safety	Modell-Verhalten steuern	Jailbreak-Prävention
Platform Safety	Plattform-Missbrauch	Rate-Limiting, Abuse Detection
User Safety	Schutz vor Manipulation	Transparenzpflichten
Societal Safety	Gesellschaftliche Risiken	Wahlbeeinflussung, Deepfakes

EU AI Act und T&S

Bedrohung	Regulierung
KI-generierte Desinformation	Art. 50 (Kennzeichnungspflicht)
Deepfakes/Synthetische Medien	Art. 50 Abs. 4 (Kennzeichnung)
Soziale Manipulation	Art. 5 (verbotene Praktiken)
Biometrische Überwachung	Art. 5 (verboten, mit Ausnahmen)

T&S in der Praxis

Content Moderation

KI-generierte Inhalte prüfen:

Pre-generation: System-Prompt mit Guardrails
Post-generation: Output-Filter, Classifier
Human Review: HITL für Grenzfälle

Missbrauchs-Prävention

Rate-Limiting pro User/API-Key
Anomalie-Detection für Missbrauchsmuster
Blacklisting bekannter Angriffsvektoren

IIO T&S Maßnahmen

IIO implementiert T&S durch:

HITL-Gates bei risikobehafteten Ausgaben
Content-Filter in LiteLLM für schädliche Anfragen
Audit Trail für forensische Analyse
Scope-Isolation verhindert Agent-Missbrauch

Citation

"신뢰 및 안전 (KI)." Open Cognition Commons Foundation. https://opencognitioncommons.org/ko/glossary/trust-safety. CC-BY 4.0.

Machine-readable metadata

{
  "@context": "https://schema.org",
  "@type": "DefinedTerm",
  "name": "신뢰 및 안전 (KI)",
  "description": "Trust & Safety (T&S) für KI bezeichnet die Praktiken, Prozesse und Technologien, die sicherstellen, dass KI-Systeme vertrauenswürdig betrieben werden — mit Schutz vor Missbrauch, schädlichen Ausgaben und unerwünschten Verhaltensweisen.\n",
  "url": "https://opencognitioncommons.org/ko/glossary/trust-safety",
  "license": "https://creativecommons.org/licenses/by/4.0/",
  "alternateName": [
    "Trust & Safety",
    "T&S",
    "TrustSafety"
  ]
}