Machine Learning · Overfitting, Underfitting i regularyzacja

Regularyzacja L1 i L2 — Lasso, Ridge i Elastic Net

Overfitting, Underfitting i regularyzacja

Wprowadzenie

Regularyzacja L1 (Lasso) i L2 (Ridge) to dwa kanoniczne narzędzia kontroli pojemności modelu. Obie dodają karę zależną od wag β do funkcji kosztu, ale ich geometria daje radykalnie różne efekty: L2 SHRINKS wagi (proporcjonalnie), L1 SETS UP TO ZERO (selekcja cech). Ta lekcja wyprowadza obie formuły, omawia closed-form Ridge, geometrię L1 (rogi normy ||·||₁ generujące rzadkość), Elastic Net jako hybrydę, wpływ na bias-variance, konieczność standaryzacji oraz wybór λ przez cross-validation. Bazujemy na: Tibshirani 1996 ("Regression shrinkage and selection via the Lasso"), Hoerl & Kennard 1970 (Ridge), Zou & Hastie 2005 (Elastic Net), Hastie, Tibshirani & Wainwright 2015 ("Statistical Learning with Sparsity").