Machine Learning · Dane i przygotowanie
Cechy numeryczne i normalizacja
Dane i przygotowanie
Wprowadzenie
Dlaczego skalowanie cech numerycznych ma znaczenie dla algorytmów opartych na odległościach i gradientach (kNN, SVM, regresja logistyczna, sieci neuronowe), a nie ma dla drzew decyzyjnych. Lekcja porządkuje rodzinę skalerów scikit-learn (StandardScaler, MinMaxScaler, RobustScaler, MaxAbsScaler, Normalizer), transformacje rozkładu (log, Box-Cox, Yeo-Johnson, QuantileTransformer) oraz dyscyplinę "fit on train only" przez ColumnTransformer i Pipeline.