Machine Learning · Uczenie nienadzorowane

PCA — redukcja wymiarowości

Uczenie nienadzorowane

Wprowadzenie

Principal Component Analysis (PCA) to liniowa metoda redukcji wymiarowości wymyślona przez Karla Pearsona w 1901 roku i niezależnie przez Harolda Hotellinga w 1933. Projektuje dane na podprzestrzeń niższego wymiaru tak, by zachować jak najwięcej wariancji oryginalnego zbioru. W tej lekcji zobaczysz że PCA to po prostu szukanie wektorów własnych macierzy kowariancji (lub równoważnie SVD), zrozumiesz dlaczego centrowanie i standaryzacja są krytyczne, jak wybrać liczbę komponentów przez explained variance ratio, i kiedy PCA zawodzi — bo dane mają strukturę nieliniową albo ważne są warianty o małej wariancji.