Robocikowo>ROBOCIKOWO

Machine Learning · Overfitting, Underfitting i regularyzacja

Cross-validation — k-fold, stratified, nested i pułapki praktyczne

Overfitting, Underfitting i regularyzacja

Wprowadzenie

Cross-validation (CV, walidacja krzyżowa) to standardowa procedura estymacji błędu generalizacji oraz selekcji hiperparametrów. Zamiast jednorazowego podziału train/test, dzielimy dane na k foldów i k-krotnie trenujemy na k−1 foldach a testujemy na pozostałym. Ta lekcja omawia: k-fold (formuła i praktyczny wybór k), stratified k-fold dla klasyfikacji niezbalansowanej, LOOCV (Leave-One-Out) wraz z jego pułapką wysokiej variance, repeated k-fold, time-series CV (TimeSeriesSplit) zapobiegające data leakage w danych temporalnych, group k-fold dla powtarzalnych pomiarów (np. wielu próbek od jednego pacjenta), nested CV jako jedyną poprawną metodę gdy łączymy hiperparameter tuning z estymacją błędu, regułę 1-SE Breimana, oraz najczęstsze błędy: preprocessing poza foldem (data leakage), wykorzystanie test setu do selekcji modelu, użycie shuffle=True dla szeregów czasowych. Bazujemy na: Stone 1974 (Cross-validatory choice), Geisser 1975, Kohavi 1995 ("A study of cross-validation and bootstrap"), Hastie, Tibshirani & Friedman (ESL rozdz. 7), Varma & Simon 2006 (bias from improper CV).