Machine Learning · Dane i przygotowanie
Cechy kategoryczne i kodowanie
Dane i przygotowanie
Wprowadzenie
Modele ML poza drzewami operują na liczbach — kategorie trzeba zakodować. Lekcja porządkuje rodzinę technik: One-Hot, Ordinal, Target/Mean Encoding (z dyscypliną OOF/KFold by uniknąć leakage), Frequency, Hashing Trick, Binary, WoE oraz cykliczne kodowanie sin/cos. Pokazujemy kiedy która technika jest właściwa, jak radzić sobie z wysoką kardynalnością i rzadkimi kategoriami, oraz dlaczego CatBoost i LightGBM dostają cechy kategoryczne natywnie.