Machine Learning · Ensemble i dobór modelu

Gradient Boosting i XGBoost — sekwencyjne korygowanie błędów

Ensemble i dobór modelu

Wprowadzenie

Gradient Boosting (Friedman 2001) to ensemble sekwencyjny: budujemy silny model F(x) = Σₜ ηhₜ(x) jako sumę słabych modeli (typowo płytkich drzew, depth 3–8), gdzie każdy hₜ jest dopasowany do UJEMNEGO GRADIENTU funkcji straty względem F_{t−1}. Dla MSE gradient = residuum (y − F), więc każde kolejne drzewo "naprawia" błąd poprzedniego — stąd intuicja "boosting koryguje błędy". Learning rate η (0.01–0.1) skaluje wkład każdego drzewa, by uniknąć przeuczenia. XGBoost (Chen & Guestrin 2016) dodaje: rozszerzenie Taylor 2-go rzędu (Newton boosting), regularyzację L1+L2 na liściach, sparsity-aware split, native handling NaN, parallelizację po cechach. LightGBM (Ke et al. 2017) i CatBoost (Prokhorenkova et al. 2018) idą dalej z histogram binning i ordered boosting. Ta rodzina modeli dominuje konkursy Kaggle na danych tabelarycznych.