Sieci neuronowe od podstaw do nowoczesnej AI · Mechanizm uwagi i Transformer

Motywacja — ograniczenia RNN i długoterminowe zależności

Mechanizm uwagi i Transformer

Wprowadzenie

Przed Transformerem (Vaswani et al. 2017) standardem dla sekwencji były rekurencyjne sieci LSTM (Hochreiter & Schmidhuber 1997) i GRU (Cho et al. 2014), zwykle w architekturze encoder–decoder z mechanizmem uwagi (Bahdanau et al. 2014, Luong et al. 2015). Mimo sukcesów (NMT, ASR, modelowanie języka) RNN miały trzy strukturalne ograniczenia. Po pierwsze — sekwencyjność trenowania: stan h_t zależy od h_{t-1}, więc żadnego kroku nie da się policzyć równolegle. Skutek: GPU stoją niedociążone, czas trenowania rośnie liniowo z długością sekwencji n. Po drugie — patologia gradientów na długich rozwinięciach BPTT (vanishing/exploding, Bengio et al. 1994): sygnał błędu mnożony przez n macierzy gubi się eksponencjalnie. LSTM łagodzi to bramkami i ścieżką stanu komórki c_t, ale nie eliminuje. Po trzecie — bottleneck stałego wektora kontekstu w klasycznym seq2seq: encoder ścisnął całe zdanie w h_n, decoder musiał z tego rekonstruować tłumaczenie. Bahdanau attention 2014 obejście: decoder w każdym kroku patrzy na wszystkie h_1..h_n encodera i bierze ważoną kombinację. To jest punkt narodzin uwagi w deep learning — początkowo dodatek do RNN, dopiero w 2017 staje się jedynym mechanizmem ("Attention is all you need"). Path length sygnału między dwoma odległymi tokenami w RNN to O(n); w self-attention O(1) — każda para łączy się w jednym kroku. To kluczowa intuicja całego rozdziału.