Machine Learning · Ensemble i dobór modelu

Feature importance — interpretacja modeli ensemble

Ensemble i dobór modelu

Wprowadzenie

Feature importance to próba odpowiedzi na pytanie "która cecha bardziej wpływa na predykcję modelu?". Cztery główne metody: (1) MDI (Mean Decrease in Impurity, "Gini importance" w sklearn) — uśredniony spadek impurity ważony obserwacjami w węzłach, w których cecha była użyta; szybka, ale biased ku cechom o wysokiej kardynalności i ciągłym (Strobl et al. 2007). (2) Permutation importance — średni spadek metryki (np. accuracy) gdy wartości jednej cechy są wymieszane losowo na zbiorze walidacyjnym; wolniejsza, ale model-agnostic i bez bias kardynalności. (3) SHAP values (Lundberg & Lee 2017) — Shapley values z teorii gier dające addytywną dekompozycję predykcji per obserwacja; jedyna metoda zachowująca własności consistency i local accuracy. (4) Partial Dependence Plots — pokazują marginalny wpływ cechy na predykcję. Każda metoda odpowiada na inne pytanie i każda ma pułapki interpretacyjne.