Was ist XAI?

Update: 2021-11-17

Description

Gesina Schwalbe
- Email
- Website
- GitHub
- ORCiD
- ResearchGate
- Twitter
- Linkedin

Johannes Rabold
- Twitter
- Website
- Email
- GitHub
- ResearchGate
- ORCiD

Viele maschinell gelernte Modelle sind undurchsichtig. Diesmal geht es um die Frage: Wie kann man dennoch einen Blick hinein werfen? Und warum braucht man das? Wir plaudern also ein wenig um unser Forschungsgebiet, die erklärbare künstliche Intelligenz (XAI von eXplainable Artificial Intelligence).

Zusammenfassung: Ganz kurz für Beepo

„Erklärbar“ ist nicht leicht zu definieren.
Unser Versuch: Erklärbar heißt (teilweise) auf eine Art und Weise darstellbar, dass ein Mensch es verstehen kann.
Modelle können selber schon transparent, d.h. verständlich, sein oder im Nachhinein (möglicherweise abschnittsweise) in ein verständliches Modell übersetzt werden.
Es ist wichtig, dass maschinell trainierte Modelle erklärbar sind, z.B. für Sicherheit, Fairness oder Debugging.
Erklärbar ist nicht gleich erklärbar: Es gibt viele verschiedene Gründe, weswegen man, viele Aspekte, die man, und viele Arten und Weisen, auf die man, erklären kann. Man sollte sich vorher überlegen, wer was wie erklärt haben möchte.
XAI ist ein weites (und interessantes ;-)) Forschungsfeld, das sich damit beschäftigt, Methoden zum Erstellen erklärbarer Modelle und zum nachträglichen erklären von Black-box Modellen zu finden.

Ein paar Überlegungen zu Erklärbarkeit

Was heißt „erklärbar„? Das ist erstmal schwer zu definieren, denn es kann ganz unterschiedliches sein.
- Erklären heißt, etwas intransparentes für einen Menschen transparent darstellen.
- Erklärbar heißt, (teilweise) auf eine Art und Weise darstellbar, dass ein Mensch es verstehen kann.
- Unterschiedliche Leute brauchen unterschiedliche Erklärungen, um etwas zu verstehen!
Was heißt transparent? Beispiele „durchsichtiger“ (transparenter) und „undurchsichtiger“ Modelle:
- Durchsichtig: z.B.
  - Entscheidungsregeln (z.B. erstellt mit Inductive Logic Programming)
  - Entscheidungsbäume
  - lineare Modelle
- Undurchsichtig: tiefe neuronale Netze, denn sie sind hochdimensional, vielschichtig und speichern Information verteilt (ein Neuron kodiert information über mehrere Konzepte)
Warum will man hineinschauen? Anwendungsbeispiele:
- Debugging: Was sind Stellen, an denen mein Modell besonders schlecht funktioniert? Warum? Wie kann ich das Verbessern?
- Wissensgewinn: Wie hat das Modell das Problem gelöst?
- Sicherheitsüberprüfung: Falls die Entscheidungen meines Modells gefährlich sein können, ist es zur genüge sicher(er)?
- Ethische Prüfung: Ist das Netz „fair“? (wobei fair oft schwer zu definieren ist)
- Externe Auditoren: z.B. Sicherheitsforscher
Was man sich vorher überlegen sollte:
- Wem soll etwas wozu erklärt werden?
  Beispiele unterschiedlicher Empfänger der Erklärung:
  - Entwickler des Modells
  - Endnutzer eines Systems, in dem ein maschinell trainiertes Modell verwendet wird (z.B. Ärtze im Falle eines medizinischen Assistenzsystems für Diagnosen);
    Experten oder Laien
  - Organe der Rechtsprechung
  - Externe Auditoren
- Intrinsisch erklärbar oder nachträgliches Öffnen einer Black-box?
  Beachte, dass bessere Erklärbarkeit oft mit schlechterer Performanz einhergeht! („Accuracy-Interpretability-Tradeoff“)
- Soll die Erklärung
  - lokal für eine Ausgabe (Warum reagiert mein Modell hier so?) oder
  - global für das gesamte Modell (Wie funktioniert mein Modell allgemein?) sein?
- Welcher Grad von Transparenz wird benötigt?
  - vollständig verständlich = ein Mensch könnte das gesamte Modell selber durchdenken
  - verständliche Bausteine = ein Mensch kann zwar nicht das gesamte Modell durchdenken, versteht aber jeden Schritt
  - mathematisch beschreibbar = formale Eigenschaften sind bekannt und mathematisch verstanden
- Was soll erklärt werden:
  - Worauf hat das Netz geachtet? (Attribution der Eingabe zur Ausgabe)
  - Was kodiert das Netz intern?
  - Wie arbeitet das Netz intern?
  - …
- Braucht die Erklärungsmethode nur Zugriff auf Ein- und Ausgaben des Modells (black-box) oder auch auf Zwischenaufgaben und Interna des Modells (white-box)?

Beispiele von Verfahren

Typische Verfahren, die nachträglich und lokal Attribution untersuchen:
- Nur anhand von Eingaben und Ausgaben:
  - LIME (Local Interpretable Model-agnostic Explanations): Untersuche den Effekt den es hat, einzelne Teile der Eingabe abzuschalten; abgeschaltet wird durch Schwärzen (Bildausschnitte) oder Weglassen (Textabschnitte/Wörter)
  - RISE (Randomized Input Sampling for Explanation): Wie LIME, nur hier werden Bildausschnitte durch Verwaschen abgeschaltet
  - SHAP (SHapley Additive exPlanations): Wie LIME, nur dass hier Bildausschnitte nicht abgeschaltet werden durch Schwärzen, sondern indem sie mit zufälligen Schnippseln aus anderen Bildern getauscht werden; verwendet Shapley Werte (ein Verfahren aus der Spieltheorie, um die Beiträge einzelner Spieler zum Gesamtgewinn zu ermitteln)
- Für neuronale Netze, anhand der inneren Struktur (bzw. des Informationsflusses):
  - LRP (Layer-wise Relevance Propagation): Verfolge das Ausgabesignal durch die Neuronenverbindungen zurück zur Eingabe, wobei (1) die Gewichte der Verknüpfungen beachtet werden (kleines Gewicht=weniger Durchfluss) und (2) davon ausgegangen wird, dass die Summe an Neuronensignalen in einer Schicht immer gleich bleibt.
  - Sensitivity Analysis (Empfindlichkeitsanalyse): Für jeden Teil der Eingabe, ermittele wie stark eine kleine Änderung dieses Teils auch eine Änderung in der Ausgabe verursachen würde (dafür wird der Gradient bzw. die Ableitung der Modellfunktion genutzt)
  - CAM (Class Activation Mapping) und Grad-CAM (Gradient Class Activation Mapping) für Faltungsnetze: Hier wird ausgenutzt, dass die Zwischenausgaben jeder Schicht eines Faltungsnetzes eine Sammlung von Schwarzweißbildern ist. Bei beiden Verfahren, werden die Schwarzweißbilder, die von der letzten Faltungsschicht ausgegeben werden, zu einem Schwarzweißbild zusammengefügt — der Attributionsmaske (weiß=wichtig, schwarz=unwichtig für die Entscheidung des Modells).
Beispiele für globale Verfahren, die nachträglich Informationen über die Kodierung eines neuronalen Netzes sammeln:
- Konzeptanalyse, z.B. Net2Vec oder TCAV (Testing with Concept Activation Vectors): Hier werden semantische Konzepte (z.B. „grün“, „Baum“, „hölzern“) mit bestimmten Zwischenausgaben von neuronalen Netzen assoziiert.
- <a href="http://ai.googleblog.com/2015/06/inceptio