XAI grupuje techniki w kilka rodzin: (1) feature attribution — przypisywanie wag wejściom (LIME poprzez lokalne aproksymacje liniowe, SHAP używające wartości Shapleya z teorii gier, Integrated Gradients dla sieci różniczkowalnych); (2) saliency / gradient-based — heatmapy ważnych pikseli/tokenów (Grad-CAM, SmoothGrad); (3) example-based — wyszukiwanie prototypów i kontrfaktów; (4) attention visualization — interpretacja wag uwagi w transformerach; (5) mechanistic interpretability — odwrotna inżynieria obwodów neuronowych w modelach (np. induction heads, sparse autoencoders w pracach Anthropic); (6) intrinsically interpretable models — projekt modelu z założenia czytelnego (drzewa, GAM, modele symboliczne).
Modele głębokiego uczenia osiągają wysoką dokładność, ale ich decyzje są nieprzejrzyste — nie wiadomo, dlaczego model zakwalifikował kredyt do odrzucenia, dlaczego klasyfikator medyczny wykrył chorobę albo dlaczego LLM wygenerował dane wyjście. Brak wyjaśnialności blokuje wdrożenie w domenach wysokiego ryzyka (medycyna, finanse, wymiar sprawiedliwości), uniemożliwia debug bias-u oraz audyt zgodności regulacyjnej.
Metody przypisujące każdej cesze wejściowej liczbową wagę wpływu na predykcję. Najbardziej znane: LIME (Ribeiro et al. 2016), SHAP (Lundberg & Lee 2017), Integrated Gradients (Sundararajan et al. 2017).
Wizualizacje obszarów wejścia (pikseli, tokenów) najsilniej wpływających na decyzję. Implementacje: Grad-CAM, Guided Backprop, SmoothGrad.
Generowanie minimalnych zmian wejścia, które odwracają predykcję ("co musiałoby się zmienić, żeby kredyt został przyznany"). Dobrze pasują do ludzkiej intuicji i wymogów prawnych.
Odwrotna inżynieria wewnętrznych obwodów sieci neuronowych — szukanie konkretnych circuits, features i superposition w modelach. Kluczowe prace: Olah et al. (Distill, Anthropic), induction heads, sparse autoencoders.
Modele czytelne z założenia: drzewa decyzyjne, regresja liniowa/logistyczna, GAM, modele symboliczne, rule lists. Cynthia Rudin postuluje preferowanie ich nad post-hoc explanations dla decyzji wysokiej stawki.
LIME/SHAP aproksymują zachowanie modelu lokalnie i mogą zwracać przekonujące, ale niezgodne z prawdziwą logiką modelu wyjaśnienia. Cynthia Rudin pokazała, że dwie różne aproksymacje mogą tłumaczyć tę samą predykcję sprzecznie.
Małe perturbacje wejścia potrafią znacząco zmienić wyjaśnienia LIME/SHAP, mimo niezmienionej predykcji.
Wagi uwagi w transformerze są często traktowane jako wyjaśnienie, ale Jain & Wallace (2019) pokazali, że nie korelują wiarygodnie z faktycznym wpływem tokenów na predykcję.
Exact SHAP wymaga 2^n koalicji cech; aproksymacje (KernelSHAP, TreeSHAP) są tańsze, ale wciąż drogie dla LLM-ów i high-dim danych.
Ribeiro et al. wprowadzają lokalne aproksymacje liniowe jako uniwersalny sposób wyjaśniania dowolnego klasyfikatora.
Program prowadzony przez Davida Gunninga ustanawia XAI jako odrębny obszar badawczy z budżetem agencyjnym.
Lundberg & Lee pokazują, że LIME, DeepLIFT i kilka innych metod są specjalnymi przypadkami wartości Shapleya z teorii gier.
Selvaraju et al. publikują Grad-CAM dla CNN; Sundararajan et al. wprowadzają Integrated Gradients dla sieci różniczkowalnych.
Wpływowy artykuł argumentujący, że dla decyzji wysokiej stawki należy używać modeli intrinsically interpretable zamiast post-hoc explanations.
Anthropic identyfikuje konkretne obwody (induction heads) odpowiedzialne za in-context learning w transformerach.
AI Act przyjęty przez UE wymaga transparentności i ludzkiego nadzoru dla systemów AI wysokiego ryzyka, czyniąc XAI tematem regulacyjnym, a nie tylko badawczym.
Anthropic ("Scaling Monosemanticity") i OpenAI używają sparse autoencoders do dekompozycji aktywacji LLM-ów na interpretowalne cechy w skali milionów.
Czy wyjaśnienie dotyczy pojedynczej predykcji (lokalne) czy całego modelu (globalne).
Czy metoda jest model-agnostic (działa na dowolnym modelu) czy model-specific (np. tylko sieci różniczkowalne).
Intrinsic (model interpretowalny z założenia) vs post-hoc (wyjaśnienie po fakcie).
XAI to paradygmat metodologiczny, nie wymaga konkretnego hardware. Większość metod (LIME, SHAP, gradient-based) działa wszędzie tam, gdzie działa sam model.
Mechanistic interpretability i sparse autoencoders na dużych LLM-ach wymagają GPU dla wydobywania aktywacji i treningu SAE.