🟢 Plain Language

Wenn man wirklich versteht wie eine KI innen funktioniert — nicht nur was sie sagt, sondern warum sie es sagt.

🔵 Expert Level

Interpretability vs. Explainability: Interpretability = mechanistisches Verständnis interner Repräsentationen (Neuronen, Attention-Heads, Circuits); Explainability = externe Erklärung der Input-Output-Beziehung. Forschungsfeld: Mechanistic Interpretability (Anthropic, DeepMind). Ziel: Alignment-Verifikation durch Verständnis interner Repräsentationen.

Interpretability vs. Explainability

Diese Begriffe werden oft verwechselt, bezeichnen aber verschiedene Konzepte:

Aspekt	Interpretability	Explainability
Fokus	Modell-Inneres	Ausgabe-Begründung
Zielgruppe	ML-Ingenieure, Forscher	Nutzer, Auditoren, Betroffene
Frage	”Wie funktioniert das Modell?"	"Warum diese Entscheidung?”
Methoden	Attention Weights, SHAP global	LIME, Counterfactuals
Modelle	Besonders für Neuronale Netze	Alle Modelltypen

Intrinsisch vs. Post-hoc

Intrinsisch interpretierbare Modelle

Das Modell selbst ist verständlich:

Lineare Regression — Koeffizienten direkt interpretierbar
Entscheidungsbaum — Pfad ist Begründung
Regelbasiertes System — explizite Wenn-Dann-Regeln

Post-hoc Interpretierbarkeit

Nachträgliche Analyse eines Black-Box-Modells:

SHAP — globale Feature-Importance
Attention Visualization — für Transformer-Modelle
Probing — versteckte Schichten analysieren
Mechanistic Interpretability — Schaltkreis-Analyse (Anthropic)

Regulatorische Relevanz

Anforderung	Regulierung	Interpretability-Aspekt
Audit-Trail	EU AI Act Art. 12	Modell-Versionen, Feature-Liste
Technische Dokumentation	EU AI Act Art. 11	Modellarchitektur, Training
Human Oversight	EU AI Act Art. 14	Outputs verstehbar für Reviewer
Bias-Prüfung	EU AI Act Art. 10	Feature-Importance nach Gruppe

Komplexitäts-Genauigkeits-Trade-off

Interpretierbarkeit
    ↑
    │  Lineare    Entscheidungs-
    │  Regression   baum
    │      
    │                    Random    Gradient
    │                    Forest    Boosting
    │                                       Neural
    │                                       Network
    └────────────────────────────────────────→ Genauigkeit

Je komplexer das Modell, desto schwieriger zu interpretieren — aber oft genauer. Für Hochrisiko-KI: Interpretierbarkeit priorisieren.

Cytowanie

"Interpretability (AI)." Open Cognition Commons Foundation. https://opencognitioncommons.org/pl/glossary/interpretability. CC-BY 4.0.

Metadane czytelne maszynowo

{
  "@context": "https://schema.org",
  "@type": "DefinedTerm",
  "name": "Interpretability (AI)",
  "description": "Interpretability bezeichnet die Fähigkeit, die interne Funktionsweise eines KI-Modells zu verstehen — Gewichte, Aktivierungen, Entscheidungspfade — im Gegensatz zur Explainability die auf verständliche Nutzer-Erklärungen zielt.\n",
  "url": "https://opencognitioncommons.org/pl/glossary/interpretability",
  "license": "https://creativecommons.org/licenses/by/4.0/",
  "alternateName": [
    "Interpretability",
    "Model Interpretability",
    "White-Box AI"
  ]
}