Ir para o conteúdo principal
← Glossary
concept

Interpretability (AI)

Interpretability · Model Interpretability · White-Box AI

1 min May 19, 2026
Interpretability bezeichnet die Fähigkeit, die interne Funktionsweise eines KI-Modells zu verstehen — Gewichte, Aktivierungen, Entscheidungspfade — im Gegensatz zur Explainability die auf verständliche Nutzer-Erklärungen zielt.
🟢 Plain Language

Wenn man wirklich versteht wie eine KI innen funktioniert — nicht nur was sie sagt, sondern warum sie es sagt.

🔵 Expert Level

Interpretability vs. Explainability: Interpretability = mechanistisches Verständnis interner Repräsentationen (Neuronen, Attention-Heads, Circuits); Explainability = externe Erklärung der Input-Output-Beziehung. Forschungsfeld: Mechanistic Interpretability (Anthropic, DeepMind). Ziel: Alignment-Verifikation durch Verständnis interner Repräsentationen.

Interpretability vs. Explainability

Diese Begriffe werden oft verwechselt, bezeichnen aber verschiedene Konzepte:

AspektInterpretabilityExplainability
FokusModell-InneresAusgabe-Begründung
ZielgruppeML-Ingenieure, ForscherNutzer, Auditoren, Betroffene
Frage”Wie funktioniert das Modell?""Warum diese Entscheidung?”
MethodenAttention Weights, SHAP globalLIME, Counterfactuals
ModelleBesonders für Neuronale NetzeAlle Modelltypen

Intrinsisch vs. Post-hoc

Intrinsisch interpretierbare Modelle

Das Modell selbst ist verständlich:

  • Lineare Regression — Koeffizienten direkt interpretierbar
  • Entscheidungsbaum — Pfad ist Begründung
  • Regelbasiertes System — explizite Wenn-Dann-Regeln

Post-hoc Interpretierbarkeit

Nachträgliche Analyse eines Black-Box-Modells:

  • SHAP — globale Feature-Importance
  • Attention Visualization — für Transformer-Modelle
  • Probing — versteckte Schichten analysieren
  • Mechanistic Interpretability — Schaltkreis-Analyse (Anthropic)

Regulatorische Relevanz

AnforderungRegulierungInterpretability-Aspekt
Audit-TrailEU AI Act Art. 12Modell-Versionen, Feature-Liste
Technische DokumentationEU AI Act Art. 11Modellarchitektur, Training
Human OversightEU AI Act Art. 14Outputs verstehbar für Reviewer
Bias-PrüfungEU AI Act Art. 10Feature-Importance nach Gruppe

Komplexitäts-Genauigkeits-Trade-off

Interpretierbarkeit

    │  Lineare    Entscheidungs-
    │  Regression   baum

    │                    Random    Gradient
    │                    Forest    Boosting
    │                                       Neural
    │                                       Network
    └────────────────────────────────────────→ Genauigkeit

Je komplexer das Modell, desto schwieriger zu interpretieren — aber oft genauer. Für Hochrisiko-KI: Interpretierbarkeit priorisieren.

Citação

"Interpretability (AI)." Open Cognition Commons Foundation. https://opencognitioncommons.org/pt/glossary/interpretability. CC-BY 4.0.
Metadados legíveis por máquina
{
  "@context": "https://schema.org",
  "@type": "DefinedTerm",
  "name": "Interpretability (AI)",
  "description": "Interpretability bezeichnet die Fähigkeit, die interne Funktionsweise eines KI-Modells zu verstehen — Gewichte, Aktivierungen, Entscheidungspfade — im Gegensatz zur Explainability die auf verständliche Nutzer-Erklärungen zielt.\n",
  "url": "https://opencognitioncommons.org/pt/glossary/interpretability",
  "license": "https://creativecommons.org/licenses/by/4.0/",
  "alternateName": [
    "Interpretability",
    "Model Interpretability",
    "White-Box AI"
  ]
}