Sieci neuronowe od podstaw do nowoczesnej AI · Sieci konwolucyjne (CNN)
Ewolucja architektur: AlexNet → VGG → ResNet — co się zmieniło i dlaczego
Sieci konwolucyjne (CNN)
Wprowadzenie
Trzy modele wyznaczają oś czasu nowoczesnej rewolucji deep learningu w computer vision: AlexNet (Krizhevsky, Sutskever, Hinton 2012) wygrywa ImageNet z błędem top-5 15.3% (poprzedni rekord 26.2%), uruchamiając falę zainteresowania CNN; VGG (Simonyan & Zisserman 2014) udowadnia że głębokość ma znaczenie i że małe filtry 3×3 są lepsze niż duże; ResNet (He, Zhang, Ren, Sun 2015) rozwiązuje problem degradacji w bardzo głębokich sieciach przez skip connections, pozwalając na 152 warstwy bez utraty zdolności uczenia. Każda z tych sieci wprowadziła konkretną innowację techniczną w odpowiedzi na konkretny problem swojego czasu: AlexNet — ReLU, dropout, augmentacja, GPU; VGG — uniwersalność małych filtrów i głęboka homogeniczna architektura; ResNet — residual learning, batch normalization, bottleneck blocks. Lekcja przechodzi przez każdą architekturę od strony liczb (warstwy, parametry, FLOPs, top-5 error), kluczowych decyzji projektowych, problemów które rozwiązywała oraz ograniczeń które ujawniła i które wymusiły następną iterację. Zrozumienie tej linii jest fundamentem do oceny każdej nowej architektury.