Bezpieczeństwo

XAI

2016AktywnyOpublikowano: 1 czerwca 2026Aktualizacja: 1 czerwca 2026Opublikowany

Explainable AI (XAI) to paradygmat budowania i analizy modeli uczenia maszynowego w taki sposób, by ich predykcje dało się wytłumaczyć, zaufać im i zweryfikować pod kątem błędów oraz biasu.

Kluczowa innowacja

Zestaw metod i kryteriów projektowych, które czynią decyzje modeli ML zrozumiałymi dla człowieka — zamiast traktować je jako czarną skrzynkę.

Kategoria

Bezpieczeństwo

Poziom abstrakcji

Paradygmat

Poziom operacji

Po-treningInferencjaSystem

Zastosowania

Medycyna — uzasadnienie diagnozy AI dla lekarza i pacjentaScoring kredytowy — wymóg uzasadnienia odmowy (RODO art. 22, ECOA w USA)Wymiar sprawiedliwości — audyt narzędzi recidivism riskDebug modeli — wykrywanie spurious correlations i data leakageAudyt biasu i fairnessCompliance z EU AI Act dla systemów wysokiego ryzykaAI safety i alignment research (mechanistic interpretability)

Jak działa

XAI grupuje techniki w kilka rodzin: (1) feature attribution — przypisywanie wag wejściom (LIME poprzez lokalne aproksymacje liniowe, SHAP używające wartości Shapleya z teorii gier, Integrated Gradients dla sieci różniczkowalnych); (2) saliency / gradient-based — heatmapy ważnych pikseli/tokenów (Grad-CAM, SmoothGrad); (3) example-based — wyszukiwanie prototypów i kontrfaktów; (4) attention visualization — interpretacja wag uwagi w transformerach; (5) mechanistic interpretability — odwrotna inżynieria obwodów neuronowych w modelach (np. induction heads, sparse autoencoders w pracach Anthropic); (6) intrinsically interpretable models — projekt modelu z założenia czytelnego (drzewa, GAM, modele symboliczne).

Rozwiązany problem

Modele głębokiego uczenia osiągają wysoką dokładność, ale ich decyzje są nieprzejrzyste — nie wiadomo, dlaczego model zakwalifikował kredyt do odrzucenia, dlaczego klasyfikator medyczny wykrył chorobę albo dlaczego LLM wygenerował dane wyjście. Brak wyjaśnialności blokuje wdrożenie w domenach wysokiego ryzyka (medycyna, finanse, wymiar sprawiedliwości), uniemożliwia debug bias-u oraz audyt zgodności regulacyjnej.

Komponenty

Feature attribution methodsLokalne wyjaśnienia post-hoc

Metody przypisujące każdej cesze wejściowej liczbową wagę wpływu na predykcję. Najbardziej znane: LIME (Ribeiro et al. 2016), SHAP (Lundberg & Lee 2017), Integrated Gradients (Sundararajan et al. 2017).

Saliency mapsWyjaśnienia gradientowe dla modeli wizyjnych i językowych

Wizualizacje obszarów wejścia (pikseli, tokenów) najsilniej wpływających na decyzję. Implementacje: Grad-CAM, Guided Backprop, SmoothGrad.

Counterfactual explanationsWyjaśnienia akcjonalne

Generowanie minimalnych zmian wejścia, które odwracają predykcję ("co musiałoby się zmienić, żeby kredyt został przyznany"). Dobrze pasują do ludzkiej intuicji i wymogów prawnych.

Mechanistic interpretabilityInterpretowalność strukturalna dla AI safety

Odwrotna inżynieria wewnętrznych obwodów sieci neuronowych — szukanie konkretnych circuits, features i superposition w modelach. Kluczowe prace: Olah et al. (Distill, Anthropic), induction heads, sparse autoencoders.

Intrinsically interpretable modelsAlternatywa do post-hoc explanations

Modele czytelne z założenia: drzewa decyzyjne, regresja liniowa/logistyczna, GAM, modele symboliczne, rule lists. Cynthia Rudin postuluje preferowanie ich nad post-hoc explanations dla decyzji wysokiej stawki.

Implementacja

Implementacje referencyjne

SHAP

Python · Scott Lundberg / community

Oficjalna

LIME

Python · Marco Tulio Ribeiro

Oficjalna

Captum

Python · Meta / PyTorch

Python · Neel Nanda / community

Pułapki implementacyjne

Wyjaśnienia post-hoc nie są wierneWysoka

LIME/SHAP aproksymują zachowanie modelu lokalnie i mogą zwracać przekonujące, ale niezgodne z prawdziwą logiką modelu wyjaśnienia. Cynthia Rudin pokazała, że dwie różne aproksymacje mogą tłumaczyć tę samą predykcję sprzecznie.

Rozwiązanie:Dla decyzji wysokiej stawki preferuj intrinsically interpretable models. Waliduj wyjaśnienia przez ablacje i stress-testy.

Niestabilność wyjaśnieńŚrednia

Małe perturbacje wejścia potrafią znacząco zmienić wyjaśnienia LIME/SHAP, mimo niezmienionej predykcji.

Rozwiązanie:Uśredniaj wyjaśnienia (SmoothGrad), używaj większej liczby próbek, raportuj wariancję.

Attention ≠ explanationŚrednia

Wagi uwagi w transformerze są często traktowane jako wyjaśnienie, ale Jain & Wallace (2019) pokazali, że nie korelują wiarygodnie z faktycznym wpływem tokenów na predykcję.

Rozwiązanie:Łącz wizualizację uwagi z attribution methods (Integrated Gradients, attention rollout).

Koszt obliczeniowy SHAP na dużych modelachŚrednia

Exact SHAP wymaga 2^n koalicji cech; aproksymacje (KernelSHAP, TreeSHAP) są tańsze, ale wciąż drogie dla LLM-ów i high-dim danych.

Rozwiązanie:Używaj TreeSHAP dla modeli drzewiastych, samplowania, lub ogranicz analizę do reprezentatywnego subsetu.

Ewolucja

Oryginalny paper · 2016 · KDD 2016 · Marco Tulio Ribeiro

"Why Should I Trust You?": Explaining the Predictions of Any Classifier

Marco Tulio Ribeiro, Sameer Singh, Carlos Guestrin

2016

LIME — pierwsza popularna metoda model-agnostic

Punkt przełomowy

Ribeiro et al. wprowadzają lokalne aproksymacje liniowe jako uniwersalny sposób wyjaśniania dowolnego klasyfikatora.

"Why Should I Trust You?": Explaining the Predictions of Any Classifier (artykuł)

2016

DARPA uruchamia program XAI

Punkt przełomowy

Program prowadzony przez Davida Gunninga ustanawia XAI jako odrębny obszar badawczy z budżetem agencyjnym.

2017

SHAP unifikuje feature attribution

Punkt przełomowy

Lundberg & Lee pokazują, że LIME, DeepLIFT i kilka innych metod są specjalnymi przypadkami wartości Shapleya z teorii gier.

A Unified Approach to Interpreting Model Predictions (artykuł)

2017

Grad-CAM i Integrated Gradients

Selvaraju et al. publikują Grad-CAM dla CNN; Sundararajan et al. wprowadzają Integrated Gradients dla sieci różniczkowalnych.

2019

Cynthia Rudin: "Stop Explaining Black Box Models"

Wpływowy artykuł argumentujący, że dla decyzji wysokiej stawki należy używać modeli intrinsically interpretable zamiast post-hoc explanations.

Stop Explaining Black Box Machine Learning Models for High Stakes Decisions and Use Interpretable Models Instead (artykuł)

2022

Mechanistic interpretability — induction heads

Punkt przełomowy

Anthropic identyfikuje konkretne obwody (induction heads) odpowiedzialne za in-context learning w transformerach.

In-context Learning and Induction Heads (artykuł)

2024

EU AI Act — wymóg explainability dla high-risk

Punkt przełomowy

AI Act przyjęty przez UE wymaga transparentności i ludzkiego nadzoru dla systemów AI wysokiego ryzyka, czyniąc XAI tematem regulacyjnym, a nie tylko badawczym.

2024

Sparse autoencoders i feature decomposition

Anthropic ("Scaling Monosemanticity") i OpenAI używają sparse autoencoders do dekompozycji aktywacji LLM-ów na interpretowalne cechy w skali milionów.

Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet (artykuł)

XAI

Jak działa

Rozwiązany problem

Komponenty

Implementacja

Ewolucja

Hiperparametry (konfigurowalne osie)

Wymagania sprzętowe