Machine Learning · Dane i przygotowanie

Cechy numeryczne i normalizacja

Dane i przygotowanie

Wprowadzenie

Dlaczego skalowanie cech numerycznych ma znaczenie dla algorytmów opartych na odległościach i gradientach (kNN, SVM, regresja logistyczna, sieci neuronowe), a nie ma dla drzew decyzyjnych. Lekcja porządkuje rodzinę skalerów scikit-learn (StandardScaler, MinMaxScaler, RobustScaler, MaxAbsScaler, Normalizer), transformacje rozkładu (log, Box-Cox, Yeo-Johnson, QuantileTransformer) oraz dyscyplinę "fit on train only" przez ColumnTransformer i Pipeline.