Skip to main content
← Glossary
concept

해석 가능성 (AI)

Interpretability · Model Interpretability · White-Box AI

1 min read 2026년 5월 19일
Interpretability bezeichnet die Fähigkeit, die interne Funktionsweise eines KI-Modells zu verstehen — Gewichte, Aktivierungen, Entscheidungspfade — im Gegensatz zur Explainability die auf verständliche Nutzer-Erklärungen zielt.
🟢 Plain Language

Interpretability (KI) bedeutet: Interpretability bezeichnet die Fähigkeit, die interne Funktionsweise eines KI-Modells zu verstehen — Gewichte, Aktivierungen, Entscheidungspfade — im Gegensatz zur Explainability die auf verständliche Nutzer-Erklärungen zielt. Das ist wichtig, weil KI-Systeme heute überall eingesetzt werden und Regeln brauchen, damit sie sicher und fair funktionieren.

🔵 Expert Level

Interpretability bezeichnet die Fähigkeit, die interne Funktionsweise eines KI-Modells zu verstehen — Gewichte, Aktivierungen, Entscheidungspfade — im Gegensatz zur Explainability die auf verständliche Nutzer-Erklärungen zielt. [IIO Framework] Interpretability: Fähigkeit, das Innere eines KI-Modells zu verstehen (Gegensatz zur Explainability die auf Nutzerseite erklärt). Regulatorisch relevant für Audit. [IIO Framework] Explainability: Fähigkeit eines KI-Systems, seine Entscheidungen für Menschen verständlich zu erklären. EU AI Act verlangt Explainability für Hochrisiko-Systeme. Unterschied: Interpretability (Modell-Verständnis) vs. Explainability (Nutzer-Verständnis). [NIST AI RMF] efforts on the implementing entity, including the level of necessary resources and the need to safeguard proprietary information. Maintaining the provenance of training data and supporting attribution of the AI system’s decisions to subsets of training data can assist with both transparency and acco

Interpretability vs. Explainability

Diese Begriffe werden oft verwechselt, bezeichnen aber verschiedene Konzepte:

AspektInterpretabilityExplainability
FokusModell-InneresAusgabe-Begründung
ZielgruppeML-Ingenieure, ForscherNutzer, Auditoren, Betroffene
Frage”Wie funktioniert das Modell?""Warum diese Entscheidung?”
MethodenAttention Weights, SHAP globalLIME, Counterfactuals
ModelleBesonders für Neuronale NetzeAlle Modelltypen

Intrinsisch vs. Post-hoc

Intrinsisch interpretierbare Modelle

Das Modell selbst ist verständlich:

  • Lineare Regression — Koeffizienten direkt interpretierbar
  • Entscheidungsbaum — Pfad ist Begründung
  • Regelbasiertes System — explizite Wenn-Dann-Regeln

Post-hoc Interpretierbarkeit

Nachträgliche Analyse eines Black-Box-Modells:

  • SHAP — globale Feature-Importance
  • Attention Visualization — für Transformer-Modelle
  • Probing — versteckte Schichten analysieren
  • Mechanistic Interpretability — Schaltkreis-Analyse (Anthropic)

Regulatorische Relevanz

AnforderungRegulierungInterpretability-Aspekt
Audit-TrailEU AI Act Art. 12Modell-Versionen, Feature-Liste
Technische DokumentationEU AI Act Art. 11Modellarchitektur, Training
Human OversightEU AI Act Art. 14Outputs verstehbar für Reviewer
Bias-PrüfungEU AI Act Art. 10Feature-Importance nach Gruppe

Komplexitäts-Genauigkeits-Trade-off

Interpretierbarkeit

    │  Lineare    Entscheidungs-
    │  Regression   baum

    │                    Random    Gradient
    │                    Forest    Boosting
    │                                       Neural
    │                                       Network
    └────────────────────────────────────────→ Genauigkeit

Je komplexer das Modell, desto schwieriger zu interpretieren — aber oft genauer. Für Hochrisiko-KI: Interpretierbarkeit priorisieren.

Citation

"해석 가능성 (AI)." Open Cognition Commons Foundation. https://opencognitioncommons.org/ko/glossary/interpretability. CC-BY 4.0.
Machine-readable metadata
{
  "@context": "https://schema.org",
  "@type": "DefinedTerm",
  "name": "해석 가능성 (AI)",
  "description": "Interpretability bezeichnet die Fähigkeit, die interne Funktionsweise eines KI-Modells zu verstehen — Gewichte, Aktivierungen, Entscheidungspfade — im Gegensatz zur Explainability die auf verständliche Nutzer-Erklärungen zielt.\n",
  "url": "https://opencognitioncommons.org/ko/glossary/interpretability",
  "license": "https://creativecommons.org/licenses/by/4.0/",
  "alternateName": [
    "Interpretability",
    "Model Interpretability",
    "White-Box AI"
  ]
}