Sieci neuronowe od podstaw do nowoczesnej AI · Sieci konwolucyjne (CNN)
Skip connections i bloki rezydualne — rozwiązanie problemu degradacji (He 2015)
Sieci konwolucyjne (CNN)
Wprowadzenie
Skip connection (zwane też residual connection lub shortcut) to prymitywny element architektoniczny: bezpośrednie połączenie między wejściem a wyjściem grupy warstw, dodające jedno do drugiego (y = F(x) + x). Pozornie banalne, w praktyce jeden z najważniejszych wynalazków deep learningu. Lekcja przechodzi przez pełną historię i mechanikę: (1) **problem degradacji** zaobserwowany przez He et al. 2015 — głębsze plain networks miały WYŻSZY train error niż płytsze, NIEpasujący ani do overfittingu, ani do vanishing gradient; (2) **insight residualny** — zamiast uczyć F(x) = y (pełna transformacja), uczyć F(x) = y − x (różnicę od identyczności); jeśli identyczność jest optymalna, sieć tylko zeruje F; (3) **architektura bloku** w trzech wariantach (basic, bottleneck, pre-activation) i kiedy stosować który; (4) **identity vs projection shortcuts** dla zmieniających się wymiarów; (5) **gradient flow** — wzór ∂L/∂x = ∂L/∂y · (1 + ∂F/∂x) gwarantuje że gradient nigdy nie zanika przez residual; (6) **wpływ na inne architektury** — Transformer, U-Net, DenseNet, Highway Networks. Bez skip connections wszystko głębsze niż VGG-19 jest praktycznie nieuczące się.