Sieci neuronowe od podstaw do nowoczesnej AI · Backpropagation — jak sieć się uczy

Forward pass vs backward pass — symetria i przepływ gradientu

Backpropagation — jak sieć się uczy

Wprowadzenie

Każda warstwa sieci ma dwa lustrzane przejścia: forward propaguje wartości od wejścia do loss, backward propaguje gradienty od loss do parametrów i wejść. Ta lekcja pokazuje matematyczną symetrię tych dwóch przepływów: lokalny Jakobian operacji w forwardzie staje się jego transpozycją w backwardzie (J → J^T), node "+" rozdziela gradient identycznie na oba wejścia, node "*" wymienia wejścia (x · y → upstream · y i upstream · x), node "kopiuj" w forwardzie staje się node "+" w backwardzie. Zrozumiesz dlaczego koszt obliczeniowy backwardu jest porównywalny z forwardem (FLOPS w tym samym rzędzie), dlaczego pamięć backwardu rośnie z głębokością (cache aktywacji), oraz jak ta symetria rozszerza się na elementarne operacje sieci: matmul, broadcast, reduction, indexing.