Sieci neuronowe od podstaw do nowoczesnej AI · Trening w praktyce: optymalizatory i diagnostyka

Histogramy gradientów, dead neurons i gradient clipping

Trening w praktyce: optymalizatory i diagnostyka

Wprowadzenie

Gradient to nie pojedyncza liczba — to tensor o tysiącach lub milionach komponentów. Spojrzenie na agregat (norm, mean) ukrywa patologie: martwe neurony (gradient = 0 dla 99% wsadu), exploding heads (kilka neuronów z gradem 1e6, reszta 1e-3), bias drift. Lekcja uczy patrzeć na rozkłady. Pokazuje (1) histogramy gradientów per warstwa w TensorBoard / W&B — zdrowa siatka ma zbliżone rozkłady N(0, σ_l) z σ_l zmieniającym się gładko między warstwami; (2) zjawisko „dead ReLU" (Maas et al. 2013): neuron którego pre-activation jest zawsze ujemna → gradient zawsze 0 → wagi nie są aktualizowane, neuron jest stracony permanentnie; (3) gradient clipping (Pascanu et al. 2013): clip_grad_norm_ obcina globalny norm gradientu do threshold (typowo 1.0), ratuje przed exploding gradients w RNN i transformerach; (4) clip vs grad scaling, (5) per-parameter vs global clipping. Końcowo: weight histograms — co robić gdy wagi rosną wykładniczo (brak weight decay) lub kolapsują do zera (zbyt agresywny weight decay).