Sieci neuronowe od podstaw do nowoczesnej AI · Trening w praktyce: optymalizatory i diagnostyka

Systematyczna diagnostyka: overfit single batch, init loss, learning curves

Trening w praktyce: optymalizatory i diagnostyka

Wprowadzenie

Trening sieci, który nie konwerguje, to nie sygnał „spróbuj innego optymalizatora". To sygnał „przejdź checklistę diagnostyczną". Andrej Karpathy w „A Recipe for Training Neural Networks" (2019) sformalizował zestaw kroków, który redukuje setki możliwych przyczyn błędu do kilku rozróżnialnych klas. Lekcja prezentuje pięć kanonicznych testów: (1) sanity-check loss przy losowej inicjalizacji — porównanie do wartości teoretycznej dla zadania (np. log(K) dla klasyfikacji K-klasowej, log(2)≈0.693 dla binarnej cross-entropy z balansem klas); (2) overfit single batch — wymuszenie zerowego train loss na 1–2 batchach, dowód że pipeline gradientu działa; (3) input-independent baseline — usunięcie wejścia (zerowanie pikseli) i sprawdzenie czy model zachowuje się jak chance level; (4) gradient check przez finite differences (deprecated w erze autograd, ale nadal użyteczny dla custom layers); (5) train-loss vs val-loss interpretation. Pokazuje też typowe pułapki: nieskalowane wejścia, nieprzemieszane batche, leak labela do features, niezerowane gradienty między krokami.