🟢 Plain Language
KI-Systeme so zu entwickeln dass sie das tun was Menschen wirklich wollen — und nicht nur das was man ihnen buchstäblich gesagt hat.
🔵 Expert Level
AI Alignment-Problem: Specification Gaming, Reward Hacking, Distributional Shift. Technische Ansätze: RLHF (Reinforcement Learning from Human Feedback), Constitutional AI, Scalable Oversight, Debate. Open Problem: Alignment bei superintelligenten Systemen (orthogonality thesis, instrumental convergence).
Definition
Das Problem KI-Systeme so zu gestalten dass sie menschliche Werte und Ziele korrekt umsetzen.
Detaillierte Dokumentation folgt in einem späteren Release.
Citação
"AI Alignment." Open Cognition Commons Foundation. https://opencognitioncommons.org/pt/glossary/ai-alignment. CC-BY 4.0. Metadados legíveis por máquina
{
"@context": "https://schema.org",
"@type": "DefinedTerm",
"name": "AI Alignment",
"description": "Das Problem KI-Systeme so zu gestalten dass sie menschliche Werte und Ziele korrekt umsetzen.\n",
"url": "https://opencognitioncommons.org/pt/glossary/ai-alignment",
"license": "https://creativecommons.org/licenses/by/4.0/"
}