Robocikowo>ROBOCIKOWO
Architektura

GRU

2014AktywnyOpublikowany
Rekurencyjna jednostka z bramkami umożliwiająca selektywne zapamiętywanie, uproszczona względem LSTM.
Kluczowa innowacja
Uproszczona wersja LSTM ze zredukowanymi do dwóch bramkami (reset i update), która osiąga porównywalną wydajność przy mniejszej liczbie parametrów i szybszym trenowaniu.
Kategoria
Architektura
Poziom abstrakcji
Building block
Poziom operacji
Element architekturyWarstwa
Zastosowania
Modele językowe na urządzeniach edge (mniej parametrów)Sekwencje czasowe i dane sensorycznePrzetwarzanie mowy i dźwiękuKlasyfikacja sekwencji (sentyment, intencja)Modele bazowe przed erą transformerów

Jak działa

GRU posiada dwie bramki: (1) bramkę reset (r), która kontroluje ile poprzedniego stanu "zapamiętujemy" przy obliczaniu kandydata na nowy stan; (2) bramkę update (z), która decyduje o proporcji między starym stanem a nowym kandydatem. Brak oddzielnej komórki pamięci (cell state) w odróżnieniu od LSTM.

Rozwiązany problem

LSTM rozwiązał problem zanikającego gradientu, ale kosztem złożoności (3 bramki, 2 stany). GRU upraszcza architekturę do 2 bramek i 1 stanu, zachowując zdolność modelowania długich zależności przy mniejszym koszcie obliczeniowym.

Implementacja

Pułapki implementacyjne
Sekwencyjne przetwarzanie uniemożliwia pełną równoległośćŚrednia

GRU przetwarza tokeny sekwencyjnie — nie można zrównoleglić obliczeń wzdłuż osi czasu jak w Transformerze. Trening na długich sekwencjach jest wolniejszy pomimo mniejszej liczby parametrów.

Trudności z bardzo długimi zależnościami (>1000 kroków)Średnia

Pomimo bramek reset/update GRU nadal ma trudności z propagacją gradientu przez >1000 kroków. Dla takich sekwencji Transformer lub modele stanowe (Mamba, S4) są lepszym wyborem.

Ewolucja

Oryginalny paper · 2014 · EMNLP 2014 · Kyunghyun Cho
Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation
Kyunghyun Cho, Bart van Merrienboer, Caglar Gulcehre, Dzmitry Bahdanau, Fethi Bougares, Holger Schwenk, Yoshua Bengio
2014
Wprowadzenie GRU przez Cho et al.
Punkt przełomowy

Uproszczona alternatywa dla LSTM w zadaniach NMT.

2016
Empiryczne porównanie LSTM vs GRU

Badania wykazały, że GRU i LSTM mają porównywalną skuteczność na większości zadań.

2017
Transformer wypiera RNN/GRU w NLP
Punkt przełomowy

GRU pozostaje popularne w zadaniach on-device i real-time.

Paradygmat wykonania

Tryb główny
conditional
Wzorzec aktywacji
input_dependent

Równoległość

Poziom równoległości
sequential
Zakres
traininginference

Wymagania sprzętowe

Macierzowe operacje bramek GRU są akcelerowane przez CUBLAS na GPU. cuDNN dostarcza zoptymalizowaną implementację LSTM/GRU z fused kernelami.

Dla małych modeli GRU (embedded NLP, IoT) CPU jest wystarczające — sekwencyjna natura GRU nie penalizuje CPU tak jak Transformery.