Machine Learning · Ensemble i dobór modelu

Intuicja ensemble — dlaczego wiele modeli bije jeden

Ensemble i dobór modelu

Wprowadzenie

Ensemble (zespół) to metoda łącząca predykcje wielu modeli bazowych w jedną decyzję. Trzy klasyczne rodziny: bagging (równoległe trenowanie modeli na bootstrapowanych próbkach, uśrednianie — Breiman 1996), boosting (sekwencyjne dodawanie słabych modeli korygujących błędy poprzedników — Schapire 1990, Freund & Schapire 1997) oraz stacking (meta-model uczy się jak łączyć predykcje modeli bazowych — Wolpert 1992). Matematyczna intuicja: jeśli błędy modeli bazowych są nieskorelowane, średnia ma niższą wariancję niż pojedynczy model (centralne twierdzenie graniczne dla błędu). W praktyce ensemble redukują wariancję (bagging), bias (boosting) lub oba (stacking). Ensemble dominują na Kaggle i w ustrukturyzowanych danych tabelarycznych (Caruana & Niculescu-Mizil 2006: empirical comparison).