Sieci neuronowe od podstaw do nowoczesnej AI · Interpretacja i wizualizacja sieci neuronowych

Adversarial examples — kiedy sieć się myli i dlaczego

Interpretacja i wizualizacja sieci neuronowych

Wprowadzenie

W 2013 roku Szegedy et al. odkryli zaskakujące zjawisko: do dowolnego poprawnie sklasyfikowanego obrazu można dodać niewielką, niewidoczną dla człowieka perturbację, która zmienia decyzję sieci na błędną z dużą pewnością. Te „adversarial examples" stały się jednym z najważniejszych pytań fundamentalnych głębokiego uczenia: czemu modele osiągające 95%+ na ImageNet są tak kruche? Goodfellow et al. (2015) zaproponowali wyjaśnienie liniowe (sieci są „za bardzo liniowe" w wysokowymiarowej przestrzeni wejść) oraz najprostszy atak — Fast Gradient Sign Method (FGSM): x_adv = x + ε · sign(∇_x L(θ, x, y)). Lekcja przechodzi przez: (1) intuicję geometryczną — wysoka wymiarowość wejścia + ograniczona pojemność modelu = ogromne obszary „blisko" obrazu o innej klasyfikacji, (2) hierarchię ataków: white-box vs black-box, untargeted vs targeted, single-step (FGSM) vs iteracyjne (BIM, PGD), (3) konkretne metryki budżetu perturbacji (L∞, L2, L0), (4) transferowalność ataków między modelami (Papernot 2016), (5) ataki fizyczne (Athalye 2018, naklejki na znakach drogowych Eykholt 2018), (6) obronę: adversarial training (Madry et al. 2018), defensive distillation (zdyskredytowana), certyfikowane obrony (randomized smoothing, Cohen et al. 2019), (7) dlaczego „sieć się myli" to nie błąd inżynieryjny tylko zjawisko fundamentalne pokazujące, że nasze modele uczą się czegoś innego niż „rozumienie" obrazu.