Machine Learning · Klasyfikacja

Drzewa decyzyjne — splity, Gini i pruning

Klasyfikacja

Wprowadzenie

Drzewo decyzyjne to nieliniowy klasyfikator dzielący przestrzeń cech rekurencyjnymi splitami osiowymi (axis-aligned). Każdy split to pytanie typu "x_i ≤ t?", a liście zawierają predykcje klas. Ta lekcja rozkłada algorytm CART (Breiman et al. 1984): Gini impurity, entropia, information gain, kryteria zatrzymania, post-pruning, oraz dlaczego drzewa są niewrażliwe na skalę cech, ale ekstremalnie skłonne do przeuczenia bez regularyzacji.