Machine Learning · Regresja

Gradient descent

Regresja

Wprowadzenie

Gradient descent (GD) to fundament wszystkiego co optymalizujemy w ML — od regresji liniowej po LLM-y. W tej lekcji rozkładamy go na czynniki: regułę aktualizacji w_{t+1} = w_t − η·∇L(w_t), dlaczego idziemy "w przeciwną stronę gradientu" (Cauchy 1847), jak dobierać learning rate η (za mały → wolno, za duży → divergencja), różnice batch / SGD / mini-batch, dlaczego SGD szum pomaga w niewypukłej optymalizacji, condition number Hessianu jako regulator zbieżności, oraz nowoczesne ulepszenia (momentum, AdaGrad, Adam). Wracamy do regresji liniowej żeby pokazać, że GD ma zamknięte rozwiązanie tylko w tym specjalnym przypadku.