🟢 Plain Language

KI-Systeme so zu entwickeln dass sie das tun was Menschen wirklich wollen — und nicht nur das was man ihnen buchstäblich gesagt hat.

🔵 Expert Level

AI Alignment-Problem: Specification Gaming, Reward Hacking, Distributional Shift. Technische Ansätze: RLHF (Reinforcement Learning from Human Feedback), Constitutional AI, Scalable Oversight, Debate. Open Problem: Alignment bei superintelligenten Systemen (orthogonality thesis, instrumental convergence).

Definition

Das Problem KI-Systeme so zu gestalten dass sie menschliche Werte und Ziele korrekt umsetzen.

Detaillierte Dokumentation folgt in einem späteren Release.

Citação

"AI Alignment." Open Cognition Commons Foundation. https://opencognitioncommons.org/pt/glossary/ai-alignment. CC-BY 4.0.

Metadados legíveis por máquina

{
  "@context": "https://schema.org",
  "@type": "DefinedTerm",
  "name": "AI Alignment",
  "description": "Das Problem KI-Systeme so zu gestalten dass sie menschliche Werte und Ziele korrekt umsetzen.\n",
  "url": "https://opencognitioncommons.org/pt/glossary/ai-alignment",
  "license": "https://creativecommons.org/licenses/by/4.0/"
}