Sieci neuronowe od podstaw do nowoczesnej AI · Trening w praktyce: optymalizatory i diagnostyka

Gradient descent geometrycznie: loss surface, learning rate i mini-batch SGD

Trening w praktyce: optymalizatory i diagnostyka

Wprowadzenie

Trening sieci to wędrówka po wielowymiarowej powierzchni straty (loss surface) w przestrzeni parametrów. Gradient ∇L(θ) wskazuje kierunek najszybszego wzrostu funkcji w bieżącym punkcie, więc krok θ ← θ − η·∇L(θ) prowadzi w kierunku najszybszego spadku. Cała magia (i całe problemy) tej procedury kryje się w trzech rzeczach: kształcie loss surface (wąwozy, plateau, siodła), wartości learning rate η oraz tym, jak estymujemy gradient — na pełnym zbiorze, mini-batchu czy pojedynczym przykładzie. Lekcja pokazuje gradient descent jako lokalnie optymalny algorytm pierwszego rzędu, wyjaśnia dlaczego mini-batch SGD jest standardem (kompromis pamięć/szum/efektywność), oraz dlaczego non-konweksa loss surface modeli głębokich nie jest taką katastrofą jak intuicyjnie się wydaje — punktów siodłowych jest wykładniczo więcej niż prawdziwych minimów lokalnych, a nawet gdy utkniemy, znalezione minimum jest zwykle „wystarczająco dobre".