Python — od podstaw do zaawansowanego · scikit-learn — klasyczne ML
Train/test split i walidacja krzyżowa
scikit-learn — klasyczne ML
Wprowadzenie
Najważniejsza umiejętność w ML nie polega na trenowaniu modelu — polega na ocenie, czy model uogólnia poza dane treningowe. Lekcja systematyzuje, jak dzielić dane (train_test_split), jak robić walidację krzyżową (KFold, StratifiedKFold, cross_val_score), kiedy potrzebny jest TimeSeriesSplit (dane czasowe) lub GroupKFold (próbki z tego samego pacjenta/użytkownika). Główne zagrożenie to przeciek danych (data leakage): scaler nauczony na całym X, target encoding policzony na pełnym y, podział losowy w danych czasowych. Każdy z tych błędów daje optymistyczne wyniki w eksperymencie i porażkę w produkcji.