Globalny wariant Luonga wylicza score między aktualnym stanem dekodera i każdym stanem enkodera, następnie normalizuje score softmaxem i tworzy wektor kontekstu jako ważoną sumę stanów enkodera. Wariant lokalny najpierw przewiduje centralną pozycję źródłową, a następnie oblicza atencję tylko w oknie wokół tej pozycji. Funkcja score może być dot, general lub concat.
Zmniejsza koszt i upraszcza konstrukcję atencji w modelach seq2seq, jednocześnie umożliwiając wariant lokalny ograniczający liczbę pozycji źródłowych oglądanych w każdym kroku.
Złożoność czasowa: O(T_x · T_y · d).
Global attention używa wszystkich pozycji; local attention używa podzbioru pozycji.
Podobnie jak Bahdanau, działa zwykle w dekoderze RNN, więc generowanie jest sekwencyjne.