🟢 Plain Language

Interpretability (KI) bedeutet: Interpretability bezeichnet die Fähigkeit, die interne Funktionsweise eines KI-Modells zu verstehen — Gewichte, Aktivierungen, Entscheidungspfade — im Gegensatz zur Explainability die auf verständliche Nutzer-Erklärungen zielt. Das ist wichtig, weil KI-Systeme heute überall eingesetzt werden und Regeln brauchen, damit sie sicher und fair funktionieren.

🔵 Expert Level

Interpretability bezeichnet die Fähigkeit, die interne Funktionsweise eines KI-Modells zu verstehen — Gewichte, Aktivierungen, Entscheidungspfade — im Gegensatz zur Explainability die auf verständliche Nutzer-Erklärungen zielt. [IIO Framework] Interpretability: Fähigkeit, das Innere eines KI-Modells zu verstehen (Gegensatz zur Explainability die auf Nutzerseite erklärt). Regulatorisch relevant für Audit. [IIO Framework] Explainability: Fähigkeit eines KI-Systems, seine Entscheidungen für Menschen verständlich zu erklären. EU AI Act verlangt Explainability für Hochrisiko-Systeme. Unterschied: Interpretability (Modell-Verständnis) vs. Explainability (Nutzer-Verständnis). [NIST AI RMF] efforts on the implementing entity, including the level of necessary resources and the need to safeguard proprietary information. Maintaining the provenance of training data and supporting attribution of the AI system’s decisions to subsets of training data can assist with both transparency and acco

Interpretability vs. Explainability

Diese Begriffe werden oft verwechselt, bezeichnen aber verschiedene Konzepte:

Aspekt	Interpretability	Explainability
Fokus	Modell-Inneres	Ausgabe-Begründung
Zielgruppe	ML-Ingenieure, Forscher	Nutzer, Auditoren, Betroffene
Frage	”Wie funktioniert das Modell?"	"Warum diese Entscheidung?”
Methoden	Attention Weights, SHAP global	LIME, Counterfactuals
Modelle	Besonders für Neuronale Netze	Alle Modelltypen

Intrinsisch vs. Post-hoc

Intrinsisch interpretierbare Modelle

Das Modell selbst ist verständlich:

Lineare Regression — Koeffizienten direkt interpretierbar
Entscheidungsbaum — Pfad ist Begründung
Regelbasiertes System — explizite Wenn-Dann-Regeln

Post-hoc Interpretierbarkeit

Nachträgliche Analyse eines Black-Box-Modells:

SHAP — globale Feature-Importance
Attention Visualization — für Transformer-Modelle
Probing — versteckte Schichten analysieren
Mechanistic Interpretability — Schaltkreis-Analyse (Anthropic)

Regulatorische Relevanz

Anforderung	Regulierung	Interpretability-Aspekt
Audit-Trail	EU AI Act Art. 12	Modell-Versionen, Feature-Liste
Technische Dokumentation	EU AI Act Art. 11	Modellarchitektur, Training
Human Oversight	EU AI Act Art. 14	Outputs verstehbar für Reviewer
Bias-Prüfung	EU AI Act Art. 10	Feature-Importance nach Gruppe

Komplexitäts-Genauigkeits-Trade-off

Interpretierbarkeit
    ↑
    │  Lineare    Entscheidungs-
    │  Regression   baum
    │      
    │                    Random    Gradient
    │                    Forest    Boosting
    │                                       Neural
    │                                       Network
    └────────────────────────────────────────→ Genauigkeit

Je komplexer das Modell, desto schwieriger zu interpretieren — aber oft genauer. Für Hochrisiko-KI: Interpretierbarkeit priorisieren.

Citation

"해석 가능성 (AI)." Open Cognition Commons Foundation. https://opencognitioncommons.org/ko/glossary/interpretability. CC-BY 4.0.

Machine-readable metadata

{
  "@context": "https://schema.org",
  "@type": "DefinedTerm",
  "name": "해석 가능성 (AI)",
  "description": "Interpretability bezeichnet die Fähigkeit, die interne Funktionsweise eines KI-Modells zu verstehen — Gewichte, Aktivierungen, Entscheidungspfade — im Gegensatz zur Explainability die auf verständliche Nutzer-Erklärungen zielt.\n",
  "url": "https://opencognitioncommons.org/ko/glossary/interpretability",
  "license": "https://creativecommons.org/licenses/by/4.0/",
  "alternateName": [
    "Interpretability",
    "Model Interpretability",
    "White-Box AI"
  ]
}