Architektura

Luong Attention

2015HistorycznyOpublikowano: 28 maja 2026Aktualizacja: 28 maja 2026Opublikowany

Mechanizm atencji dla NMT zaproponowany przez Luong, Pham i Manning (2015), obejmujący globalną i lokalną atencję oraz scoring dot/general/concat.

Kluczowa innowacja

Uproszczenie i systematyzacja atencji w NMT przez globalne i lokalne warianty oraz scoring multiplicative/dot-product zamiast kosztownego scoringu addytywnego.

Kategoria

Architektura

Poziom abstrakcji

Building block

Poziom operacji

Element architekturyTreningInferencja

Zastosowania

Neuronowe tłumaczenie maszynoweModele seq2seqStreszczanie tekstuRozpoznawanie mowy

Jak działa

Globalny wariant Luonga wylicza score między aktualnym stanem dekodera i każdym stanem enkodera, następnie normalizuje score softmaxem i tworzy wektor kontekstu jako ważoną sumę stanów enkodera. Wariant lokalny najpierw przewiduje centralną pozycję źródłową, a następnie oblicza atencję tylko w oknie wokół tej pozycji. Funkcja score może być dot, general lub concat.

Rozwiązany problem

Zmniejsza koszt i upraszcza konstrukcję atencji w modelach seq2seq, jednocześnie umożliwiając wariant lokalny ograniczający liczbę pozycji źródłowych oglądanych w każdym kroku.