Sieci neuronowe od podstaw do nowoczesnej AI · Regularyzacja — jak uniknąć przeuczenia

Weight decay i L2 regularization — karanie dużych wag

Regularyzacja — jak uniknąć przeuczenia

Wprowadzenie

Weight decay to najstarsza i najczęściej używana forma regularyzacji w głębokim uczeniu. Idea jest prosta: dodajemy do funkcji straty człon karzący wagi za to, że są duże — najczęściej w postaci L2 (suma kwadratów wag) skalowanej przez współczynnik λ. Konsekwencje są dwojakie: matematycznie wymusza to mniejsze wagi (bias-variance tradeoff przesunięty w stronę bias), praktycznie poprawia generalizację i stabilność optymalizacji. Diabeł tkwi w szczegółach — okazuje się, że „weight decay = L2" jest prawdą tylko dla pure SGD. W Adamie i innych adaptacyjnych optymalizatorach klasyczne L2 jest wręcz szkodliwe, dlatego powstał AdamW (Loshchilov & Hutter 2017, „Decoupled Weight Decay Regularization"). Lekcja przeprowadzi przez geometrię L2 (ściąganie wag w kierunku zera, soft constraint), porównanie z L1 (sparsity), interakcję z normalizacją oraz typowe skale λ w realnych pipeline'ach (10⁻⁴ dla CV, 10⁻¹ dla NLP w niektórych transformerach).