Sieci neuronowe od podstaw do nowoczesnej AI · Trening w praktyce: optymalizatory i diagnostyka

LR schedules: step decay, cosine annealing, warmup

Trening w praktyce: optymalizatory i diagnostyka

Wprowadzenie

Stała wartość learning rate przez cały trening jest rzadko optymalna. Na starcie chcemy dużych kroków (eksploracja, ucieczka z saddle), w połowie umiarkowanych (zbieżność), na końcu maleńkich (precyzyjne osiadanie w minimum). Dlatego prawie każdy nowoczesny pipeline trenuje z harmonogramem learning rate (LR schedule) — funkcją η(t) zmieniającą się w czasie. Lekcja przedstawia trzy główne rodziny: step decay (klasyka ResNet, Krizhevsky 2014), cosine annealing (Loshchilov & Hutter 2017, dziś standard dla LLM), oraz warmup (linear ramp od 0, niezbędny dla transformerów i bardzo dużych batchy). Pokazuje też cyclical LR (Smith 2017) i one-cycle policy. Końcowo wyjaśnia czemu warmup ratuje trening Adam dla transformerów: w pierwszych krokach √v̂ jest niedoszacowane, więc effective step potrafi być ogromny — warmup tłumi to liniowo zanim Adam zbierze sensowny estymator drugiego momentu.