Sieci neuronowe od podstaw do nowoczesnej AI · Trening w praktyce: optymalizatory i diagnostyka

Momentum i Adam: adaptacyjne learning rates i kiedy ich używać

Trening w praktyce: optymalizatory i diagnostyka

Wprowadzenie

Pure SGD ma dwa problemy: oscyluje w wąwozach (wysoki condition number Hesjanu) i kuleje na plateau (mały gradient → mały krok). Rozwiązaniem są dwie ortogonalne idee: momentum (Polyak 1964, Nesterov 1983) — akumulacja prędkości po kierunkach gradientu, i adaptacyjne learning rates per-parametr (AdaGrad 2011, RMSprop 2012, Adam 2014). Adam łączy obie i jest dziś defaultem dla NLP, transformerów i RL. SGD z momentum pozostaje preferowany dla ResNetów i klasyfikacji obrazów — empirycznie osiąga ~1pp lepszą generalizację. Lekcja wyprowadza wzory Adam, pokazuje znaczenie korekty biasu pierwszego i drugiego momentu, omawia AdamW jako poprawkę weight decay (Loshchilov & Hutter 2019), i daje praktyczną intuicję kiedy wybrać który optymalizator. Centralne pytanie: dlaczego Adam wygrywa dla transformerów ale przegrywa dla ResNetów na ImageNet.