Sieci neuronowe od podstaw do nowoczesnej AI · Sieci konwolucyjne (CNN)

Pooling, mapy cech i przepływ wymiarów przez sieć

Sieci konwolucyjne (CNN)

Wprowadzenie

Po splotach przychodzi pora na agregację — pooling redukuje wymiar przestrzenny mapy cech bez parametrów uczonych. Najpopularniejsze warianty to **max pooling** (bierze maksimum z okna 2×2 lub 3×3) i **average pooling** (bierze średnią). Każdy wariant niesie inny induktywny bias: max odpowiada na pytanie „czy ta cecha tu wystąpiła?", a average na „jaka jest średnia siła cechy w tym regionie?". Pooling spełnia kilka funkcji jednocześnie: zmniejsza koszt obliczeniowy następnych warstw (kwadratowa redukcja FLOPs), poszerza pole receptywne każdego neuronu w głąb sieci, wprowadza częściową niezmienniczość translacyjną w obrębie okna i działa jako forma regularyzacji. Lekcja systematycznie omawia matematykę pooling, jego rolę w klasycznych architekturach (AlexNet, VGG), powolne wycofywanie max-pooling na rzecz strided convolution w nowoczesnych modelach (ResNet, ConvNeXt), kluczową rolę **global average pooling** (Lin et al. „Network In Network" 2013) jako mostu między mapą cech a klasyfikatorem oraz dokładny przepływ wymiarów (N, C, H, W) przez typową sieć ImageNetową — od 224×224×3 do wektora 1000 logits, krok po kroku.