Robocikowo>ROBOCIKOWO

Machine Learning · Dane i przygotowanie

Eksploracja danych (EDA) — pierwszy kontakt z datasetem

Dane i przygotowanie

Wprowadzenie

EDA (termin spopularyzowany przez Johna Tukeya, 1977) to systematyczne badanie danych przed modelowaniem: kształtu, rozkładów, zależności, anomalii i jakości. Lekcja pokazuje typowy pipeline w pandas (head/info/describe), wizualizacje (histogram, boxplot, scatter, pairplot), miary korelacji (Pearson vs Spearman), wykrywanie outlierów regułą IQR oraz dyscyplinę pracy z train/test (EDA tylko na train, by uniknąć data leakage).