Sieci neuronowe od podstaw do nowoczesnej AI · Interpretacja i wizualizacja sieci neuronowych

Wizualizacja filtrów i map aktywacji w CNN

Interpretacja i wizualizacja sieci neuronowych

Wprowadzenie

Sieci konwolucyjne są często nazywane „czarną skrzynką", ale w przypadku CNN ta skrzynka jest na tyle szklana, że można do niej zajrzeć. Pierwsza warstwa konwolucyjna uczy się filtrów przypominających detektory krawędzi i tekstur (Gabor-like), kolejne warstwy budują hierarchię od kantów przez tekstury do części obiektów i całych obiektów (Zeiler & Fergus 2014). Tę hierarchię można zobaczyć trzema rodzinami technik: (1) bezpośrednia wizualizacja wag filtrów (działa praktycznie tylko dla warstwy 1, bo filtry kolejnych warstw operują na kanałach abstrakcyjnych map cech), (2) wizualizacja map aktywacji dla konkretnego obrazu (które rejony obrazu silnie pobudzają dany kanał), (3) wizualizacja przez optymalizację — synteza obrazu maksymalizującego aktywację konkretnego neuronu (activation maximization, Erhan et al. 2009; deconvnet Zeiler & Fergus 2014; guided backpropagation Springenberg et al. 2015; lucid/feature visualization Olah et al. 2017). Tę lekcję spina też kwestia regularizacji w syntezie (total variation, frequency preconditioning), tSNE/UMAP cech z warstwy przedostatniej oraz „network dissection" (Bau et al. 2017) jako próba ilościowej oceny ile pojedynczych neuronów koduje rozpoznawalne pojęcia.