Sieci neuronowe od podstaw do nowoczesnej AI · Sieci konwolucyjne (CNN)

Transfer learning — ekstrakcja cech vs fine-tuning (jak korzystać z ImageNet)

Sieci konwolucyjne (CNN)

Wprowadzenie

Transfer learning to praktyczna recepta na sukces w niemal każdym realnym zadaniu wizyjnym: zamiast trenować CNN od zera na małym zbiorze (typowo setki–tysiące zdjęć), bierzemy sieć wstępnie wytrenowaną na ImageNet (1.28M obrazów, 1000 klas) i adaptujemy ją do nowego zadania. Działa, bo niskie i średnie warstwy CNN uczą się **uniwersalnych** cech wizualnych (krawędzie, tekstury, kształty, części obiektów) niezależnie od konkretnej klasy — przydatnych dla psów, raków skóry, obrazów satelitarnych czy płytek drukowanych. Lekcja przechodzi przez: (1) **dwa tryby** — feature extraction (zamrożona sieć, trening tylko klasyfikatora) vs fine-tuning (odmrożenie i dotrenowanie części/całości); (2) **macierz decyzyjna** — kiedy który tryb (rozmiar danych × podobieństwo domen, Yosinski et al. 2014); (3) **discriminative learning rates** — niższy LR dla wcześniejszych warstw (Howard&Ruder ULMFiT 2018); (4) **gradual unfreezing** — odmrażanie warstw warstwa po warstwie; (5) **pułapki BatchNorm** — zamrożona BN w trybie eval vs train; (6) **catastrophic forgetting** vs negative transfer; (7) **alternatywy ImageNet** — DINOv2, CLIP, model pretrenowany na konkretnej domenie (medical, satellite). Bez transfer learningu większość projektów computer vision z budżetem mniejszym niż 1M USD to porażka.