Machine Learning · Ensemble i dobór modelu

Random Forest — bagging drzew z losowaniem cech

Ensemble i dobór modelu

Wprowadzenie

Random Forest (Breiman 2001) to bagging zastosowany do drzew decyzyjnych z dodatkowym mechanizmem dekorelacji: w każdym splitcie kandydatami są tylko losowo wybrane mtry cech (zamiast wszystkich p cech). Ten drobny dodatek sprawia, że drzewa bazowe są znacznie mniej skorelowane niż w czystym baggingu, a błąd ensemble jest istotnie niższy. Standardowe defaulty: mtry = √p (klasyfikacja) lub p/3 (regresja), drzewa rosną do końca (brak przycinania), 500 drzew. RF nie wymaga skalowania cech, obsługuje brakujące wartości, dostarcza darmową estymację błędu (OOB) i feature importance. Jest "out-of-the-box best" w wielu benchmarkach na danych tabelarycznych — Caruana & Niculescu-Mizil 2006, Fernández-Delgado et al. 2014 ("Do we need hundreds of classifiers?": RF wygrywa większość zadań UCI).