Sieci neuronowe od podstaw do nowoczesnej AI · Matematyka i narzędzia: tensor, gradient, Python, NumPy

Gradient descent na prostej funkcji — schodzenie z górki krok po kroku

Matematyka i narzędzia: tensor, gradient, Python, NumPy

Wprowadzenie

Wiemy już, że gradient to strzałka wskazująca kierunek największego wzrostu funkcji, a wektor przeciwny (−∇f) wskazuje kierunek największego spadku. Gradient descent to algorytm, który wykorzystuje tę strzałkę: stoisz w jakimś punkcie, liczysz gradient, robisz mały krok w kierunku przeciwnym do gradientu — i powtarzasz, aż osiągniesz dolinę. W tej lekcji wykonamy ten algorytm RĘCZNIE na zabawkowej funkcji f(x) = x² (parabola z minimum w x=0). Zaczniemy w punkcie x=2, ustalimy learning rate η=0.1 i policzymy kilka iteracji na papierze. Zobaczysz, że x zbliża się do zera w równym tempie, a kroki naturalnie maleją w pobliżu minimum (bo gradient też tam maleje). To dokładnie ten sam algorytm, który trenuje sieci neuronowe — tylko zamiast jednej zmiennej x mamy miliony wag, a zamiast x² mamy loss zależny od wszystkich tych wag.