Machine Learning · Dane i przygotowanie

Brakujące dane i cleaning

Dane i przygotowanie

Wprowadzenie

Brakujące dane są regułą, nie wyjątkiem. Lekcja porządkuje terminologię (MCAR, MAR, MNAR), strategie obsługi (deletion, imputation, missing flag, native handling drzew), narzędzia sklearn (SimpleImputer, KNNImputer, IterativeImputer/MICE) oraz typowe operacje cleaningu: duplikaty, niespójność tekstów, sentinel codes, parsowanie dat i jednostki. Wszystko z dyscypliną "fit on train only", by uniknąć leakage statystyk imputacji.