Wenn man wirklich versteht wie eine KI innen funktioniert — nicht nur was sie sagt, sondern warum sie es sagt.
Interpretability vs. Explainability: Interpretability = mechanistisches Verständnis interner Repräsentationen (Neuronen, Attention-Heads, Circuits); Explainability = externe Erklärung der Input-Output-Beziehung. Forschungsfeld: Mechanistic Interpretability (Anthropic, DeepMind). Ziel: Alignment-Verifikation durch Verständnis interner Repräsentationen.
Interpretability vs. Explainability
Diese Begriffe werden oft verwechselt, bezeichnen aber verschiedene Konzepte:
| Aspekt | Interpretability | Explainability |
|---|---|---|
| Fokus | Modell-Inneres | Ausgabe-Begründung |
| Zielgruppe | ML-Ingenieure, Forscher | Nutzer, Auditoren, Betroffene |
| Frage | ”Wie funktioniert das Modell?" | "Warum diese Entscheidung?” |
| Methoden | Attention Weights, SHAP global | LIME, Counterfactuals |
| Modelle | Besonders für Neuronale Netze | Alle Modelltypen |
Intrinsisch vs. Post-hoc
Intrinsisch interpretierbare Modelle
Das Modell selbst ist verständlich:
- Lineare Regression — Koeffizienten direkt interpretierbar
- Entscheidungsbaum — Pfad ist Begründung
- Regelbasiertes System — explizite Wenn-Dann-Regeln
Post-hoc Interpretierbarkeit
Nachträgliche Analyse eines Black-Box-Modells:
- SHAP — globale Feature-Importance
- Attention Visualization — für Transformer-Modelle
- Probing — versteckte Schichten analysieren
- Mechanistic Interpretability — Schaltkreis-Analyse (Anthropic)
Regulatorische Relevanz
| Anforderung | Regulierung | Interpretability-Aspekt |
|---|---|---|
| Audit-Trail | EU AI Act Art. 12 | Modell-Versionen, Feature-Liste |
| Technische Dokumentation | EU AI Act Art. 11 | Modellarchitektur, Training |
| Human Oversight | EU AI Act Art. 14 | Outputs verstehbar für Reviewer |
| Bias-Prüfung | EU AI Act Art. 10 | Feature-Importance nach Gruppe |
Komplexitäts-Genauigkeits-Trade-off
Interpretierbarkeit
↑
│ Lineare Entscheidungs-
│ Regression baum
│
│ Random Gradient
│ Forest Boosting
│ Neural
│ Network
└────────────────────────────────────────→ Genauigkeit
Je komplexer das Modell, desto schwieriger zu interpretieren — aber oft genauer. Für Hochrisiko-KI: Interpretierbarkeit priorisieren.
Cytowanie
"Interpretability (AI)." Open Cognition Commons Foundation. https://opencognitioncommons.org/pl/glossary/interpretability. CC-BY 4.0. Metadane czytelne maszynowo
{
"@context": "https://schema.org",
"@type": "DefinedTerm",
"name": "Interpretability (AI)",
"description": "Interpretability bezeichnet die Fähigkeit, die interne Funktionsweise eines KI-Modells zu verstehen — Gewichte, Aktivierungen, Entscheidungspfade — im Gegensatz zur Explainability die auf verständliche Nutzer-Erklärungen zielt.\n",
"url": "https://opencognitioncommons.org/pl/glossary/interpretability",
"license": "https://creativecommons.org/licenses/by/4.0/",
"alternateName": [
"Interpretability",
"Model Interpretability",
"White-Box AI"
]
}