Sieci neuronowe od podstaw do nowoczesnej AI · Matematyka i narzędzia: tensor, gradient, Python, NumPy

Gradient funkcji wielu zmiennych — strzałka na mapie loss

Matematyka i narzędzia: tensor, gradient, Python, NumPy

Wprowadzenie

Pochodna mówi nam o stromości funkcji jednej zmiennej. Sieć neuronowa ma jednak miliony zmiennych (wag), a loss zależy od nich wszystkich naraz. Tu wchodzi gradient: wektor zawierający pochodną cząstkową loss po każdej zmiennej z osobna. Geometrycznie gradient to strzałka w przestrzeni parametrów, która wskazuje kierunek największego wzrostu funkcji — a wektor przeciwny pokazuje kierunek największego spadku, czyli "którędy iść, żeby zmniejszyć loss". To dokładnie ta strzałka, którą gradient descent podąża krok po kroku, schodząc po mapie loss w kierunku doliny. W tej lekcji budujemy intuicję gradientu na funkcjach 2D (mapa wysokości) i pokazujemy, że gradient w sieci ma dokładnie tyle składowych, ile sieć ma parametrów.