GRU posiada dwie bramki: (1) bramkę reset (r), która kontroluje ile poprzedniego stanu "zapamiętujemy" przy obliczaniu kandydata na nowy stan; (2) bramkę update (z), która decyduje o proporcji między starym stanem a nowym kandydatem. Brak oddzielnej komórki pamięci (cell state) w odróżnieniu od LSTM.
LSTM rozwiązał problem zanikającego gradientu, ale kosztem złożoności (3 bramki, 2 stany). GRU upraszcza architekturę do 2 bramek i 1 stanu, zachowując zdolność modelowania długich zależności przy mniejszym koszcie obliczeniowym.
Bramka decydująca jak bardzo poprzedni stan ukryty h_{t-1} ma wpłynąć na obliczenie kandydata na nowy stan h~_t. Wartość bliska 0 = ignoruj przeszłość; wartość bliska 1 = uwzględnij całą przeszłość. Sigmoid(W_r · [h_{t-1}, x_t] + b_r).
Bramka interpolująca między starym stanem h_{t-1} a kandydatem h~_t. h_t = (1 - z_t) * h_{t-1} + z_t * h~_t. Wartość bliska 0 = zachowaj stary stan (długoterminowa pamięć); wartość bliska 1 = zaadoptuj nowy stan. Sigmoid(W_z · [h_{t-1}, x_t] + b_z).
Proponowany nowy stan ukryty obliczany jako tanh(W · [r_t * h_{t-1}, x_t] + b). Zawiera 'nową' informację wyciągniętą z bieżącego wejścia x_t skomponowaną z (selektywnie wybraną przez reset gate) przeszłością.
Krok t GRU zależy od stanu z kroku t-1, więc nie można obliczyć całej sekwencji równolegle na GPU. Dla długich sekwencji (T>1000) trening jest znacząco wolniejszy niż Transformera, mimo niższej liczby parametrów.
Mimo bramek selektywnej pamięci, GRU degraduje się przy bardzo długich zależnościach. Pamięć topi się wraz z iteracjami a model 'zapomina' dawniejszy kontekst. Klasyczny limit praktyczny to 100-500 kroków efektywnych zależności.
Choć GRU lepiej radzi sobie z zanikającym gradientem niż waniliowy RNN, gradient może eksplodować dla bardzo głębokich (wielowarstwowych) lub bardzo długich sekwencji.
Praca 'Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation' (arXiv 1406.1078) wprowadza GRU jako uproszczony wariant LSTM dla zadań tłumaczenia maszynowego. To pierwsza publikacja używająca encoder-decoder z bramkami rekurencyjnymi.
Chung, Gulcehre, Cho, Bengio publikują 'Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling' (arXiv 1412.3555). Pokazują że GRU i LSTM osiągają porównywalną wydajność na modelowaniu języka i muzyki, z GRU nieznacznie szybszym do trenowania. Praca staje się standardową referencją w wyborze między GRU a LSTM.
Praca 'Attention Is All You Need' (Vaswani et al., NeurIPS 2017) wprowadza Transformer, który dzięki możliwości równoległej obróbki całej sekwencji na GPU drastycznie przewyższa RNN/GRU w skalowaniu. Od tego momentu GRU jest stopniowo wypierane w NLP, choć pozostaje relewantne w edge AI i strumieniowych zastosowaniach.
Mamba (Gu & Dao, 2023) i inne State-Space Models pokazują, że bramkowane modele rekurencyjne z liniową złożonością w długości sekwencji mogą rywalizować z Transformerem dla długich kontekstów. Choć technicznie nie są GRU, dziedziczą ideę selektywnej pamięci z bramkami w przestrzeni stanu. GRU zyskuje nową historyczną wartość jako pierwszy szeroko stosowany dowód działania bramkowanej rekurencji.
Główne wąskie gardło GRU to inherentna sekwencyjność: krok t zależy od stanu z kroku t-1, więc nie można obliczyć ich równolegle. Dla sekwencji długości T mamy T sekwencyjnych operacji macierzowych O(d²). To kontrastuje z Transformerem, który całą sekwencję przetwarza równolegle za cenę O(T² · d) attention. Dla krótkich sekwencji (T<100) GRU może być szybsze, ale dla długich (T>1000) Transformer wygrywa mimo kwadratowej złożoności w T.
GRU dobrze mapuje się na GPU dzięki batchowaniu (równoległość po batch dim) i cuDNN-zoptymalizowanym kernelom dla wielowarstwowych GRU. Ale sekwencja musi być przetworzona sekwencyjnie po osi T, co ogranicza speedup vs Transformer.
GRU dobrze działa na CPU dla małych modeli (zwłaszcza dla pojedynczego batcha podczas inferencji strumieniowej). Mniej zależny od równoległości niż Transformer.
Małe GRU (kilkanaście-kilkaset neuronów ukrytych) działają nawet na mikrokontrolerach ARM Cortex-M dzięki TFLite Micro. Niska liczba parametrów + brak attention czynią z GRU naturalny wybór dla edge AI w strumieniowym przetwarzaniu sygnałów (mowa, czujniki IoT).