Machine Learning · Dane i przygotowanie
Brakujące dane i cleaning
Dane i przygotowanie
Wprowadzenie
Brakujące dane są regułą, nie wyjątkiem. Lekcja porządkuje terminologię (MCAR, MAR, MNAR), strategie obsługi (deletion, imputation, missing flag, native handling drzew), narzędzia sklearn (SimpleImputer, KNNImputer, IterativeImputer/MICE) oraz typowe operacje cleaningu: duplikaty, niespójność tekstów, sentinel codes, parsowanie dat i jednostki. Wszystko z dyscypliną "fit on train only", by uniknąć leakage statystyk imputacji.