Interpretability (KI) bedeutet: Interpretability bezeichnet die Fähigkeit, die interne Funktionsweise eines KI-Modells zu verstehen — Gewichte, Aktivierungen, Entscheidungspfade — im Gegensatz zur Explainability die auf verständliche Nutzer-Erklärungen zielt. Das ist wichtig, weil KI-Systeme heute überall eingesetzt werden und Regeln brauchen, damit sie sicher und fair funktionieren.
Interpretability bezeichnet die Fähigkeit, die interne Funktionsweise eines KI-Modells zu verstehen — Gewichte, Aktivierungen, Entscheidungspfade — im Gegensatz zur Explainability die auf verständliche Nutzer-Erklärungen zielt. [IIO Framework] Interpretability: Fähigkeit, das Innere eines KI-Modells zu verstehen (Gegensatz zur Explainability die auf Nutzerseite erklärt). Regulatorisch relevant für Audit. [IIO Framework] Explainability: Fähigkeit eines KI-Systems, seine Entscheidungen für Menschen verständlich zu erklären. EU AI Act verlangt Explainability für Hochrisiko-Systeme. Unterschied: Interpretability (Modell-Verständnis) vs. Explainability (Nutzer-Verständnis). [NIST AI RMF] efforts on the implementing entity, including the level of necessary resources and the need to safeguard proprietary information. Maintaining the provenance of training data and supporting attribution of the AI system’s decisions to subsets of training data can assist with both transparency and acco
Interpretability vs. Explainability
Diese Begriffe werden oft verwechselt, bezeichnen aber verschiedene Konzepte:
| Aspekt | Interpretability | Explainability |
|---|---|---|
| Fokus | Modell-Inneres | Ausgabe-Begründung |
| Zielgruppe | ML-Ingenieure, Forscher | Nutzer, Auditoren, Betroffene |
| Frage | ”Wie funktioniert das Modell?" | "Warum diese Entscheidung?” |
| Methoden | Attention Weights, SHAP global | LIME, Counterfactuals |
| Modelle | Besonders für Neuronale Netze | Alle Modelltypen |
Intrinsisch vs. Post-hoc
Intrinsisch interpretierbare Modelle
Das Modell selbst ist verständlich:
- Lineare Regression — Koeffizienten direkt interpretierbar
- Entscheidungsbaum — Pfad ist Begründung
- Regelbasiertes System — explizite Wenn-Dann-Regeln
Post-hoc Interpretierbarkeit
Nachträgliche Analyse eines Black-Box-Modells:
- SHAP — globale Feature-Importance
- Attention Visualization — für Transformer-Modelle
- Probing — versteckte Schichten analysieren
- Mechanistic Interpretability — Schaltkreis-Analyse (Anthropic)
Regulatorische Relevanz
| Anforderung | Regulierung | Interpretability-Aspekt |
|---|---|---|
| Audit-Trail | EU AI Act Art. 12 | Modell-Versionen, Feature-Liste |
| Technische Dokumentation | EU AI Act Art. 11 | Modellarchitektur, Training |
| Human Oversight | EU AI Act Art. 14 | Outputs verstehbar für Reviewer |
| Bias-Prüfung | EU AI Act Art. 10 | Feature-Importance nach Gruppe |
Komplexitäts-Genauigkeits-Trade-off
Interpretierbarkeit
↑
│ Lineare Entscheidungs-
│ Regression baum
│
│ Random Gradient
│ Forest Boosting
│ Neural
│ Network
└────────────────────────────────────────→ Genauigkeit
Je komplexer das Modell, desto schwieriger zu interpretieren — aber oft genauer. Für Hochrisiko-KI: Interpretierbarkeit priorisieren.
Citation
"해석 가능성 (AI)." Open Cognition Commons Foundation. https://opencognitioncommons.org/ko/glossary/interpretability. CC-BY 4.0. Machine-readable metadata
{
"@context": "https://schema.org",
"@type": "DefinedTerm",
"name": "해석 가능성 (AI)",
"description": "Interpretability bezeichnet die Fähigkeit, die interne Funktionsweise eines KI-Modells zu verstehen — Gewichte, Aktivierungen, Entscheidungspfade — im Gegensatz zur Explainability die auf verständliche Nutzer-Erklärungen zielt.\n",
"url": "https://opencognitioncommons.org/ko/glossary/interpretability",
"license": "https://creativecommons.org/licenses/by/4.0/",
"alternateName": [
"Interpretability",
"Model Interpretability",
"White-Box AI"
]
}