Architektura

Bahdanau Attention

2014HistorycznyOpublikowano: 28 maja 2026Aktualizacja: 28 maja 2026Opublikowany

Mechanizm atencji addytywnej (additive attention) zaproponowany przez Bahdanau, Cho i Bengio (2014/ICLR 2015) — pierwsza powszechnie używana forma atencji w sieciach neuronowych do tłumaczenia maszynowego.

Kluczowa innowacja

Wprowadzenie wyuczalnego, „miękkiego” mechanizmu wyrównywania (alignment) w neuronowym tłumaczeniu maszynowym, który eliminuje wąskie gardło stałej długości wektora kontekstu w architekturze encoder–decoder.

Kategoria

Architektura

Poziom abstrakcji

Building block

Poziom operacji

Element architekturyInferencjaTrening

Zastosowania

Neuronowe tłumaczenie maszynowe (NMT)Sekwencja do sekwencji (seq2seq)Streszczanie tekstuGenerowanie podpisów do obrazówRozpoznawanie mowy (ASR)Question answering

Jak działa

Dla każdego kroku t dekodera mechanizm wykonuje trzy operacje: (1) dla każdego ukrytego stanu enkodera h_j i poprzedniego stanu dekodera s_{t-1} oblicza skalarny score wyrównania e_{t,j} = v^T · tanh(W_a · s_{t-1} + U_a · h_j) — jest to mała sieć MLP z jedną warstwą ukrytą; (2) wyniki są normalizowane przez softmax do wag alignment α_{t,j}; (3) wektor kontekstu c_t = Σ_j α_{t,j} · h_j jest podawany do dekodera obok poprzedniego tokenu i stanu, aby wyprodukować następny token. Wszystkie parametry (W_a, U_a, v) są uczone end-to-end razem z enkoderem i dekoderem.

Rozwiązany problem

W standardowej architekturze encoder–decoder opartej na RNN całe zdanie źródłowe jest kompresowane do jednego wektora o stałej długości, co stanowi wąskie gardło informacyjne — szczególnie dla długich zdań — i prowadzi do gwałtownego spadku jakości tłumaczenia wraz ze wzrostem długości wejścia.

Komponenty

Alignment scoring networkLiczy energię/score atencji.

Mała sieć feed-forward z jedną warstwą ukrytą i aktywacją tanh, która produkuje skalarny score wyrównania dla każdej pary (stan dekodera, stan enkodera).

Oficjalna

Softmax normalizationZamienia score na wagi atencji.

Normalizuje wektor scores do rozkładu prawdopodobieństwa po wszystkich pozycjach źródłowych — wagi alignment α_{t,j}.

Context vectorDynamiczna reprezentacja źródła dla danego kroku dekodera.

Ważona suma ukrytych stanów enkodera, podawana do dekodera jako dodatkowe wejście przy generowaniu kolejnego tokenu.

Bidirectional RNN encoderProdukuje sekwencję ukrytych reprezentacji źródła.

W oryginalnym papierze enkoder jest bidirectional GRU; jego ukryte stany h_j są wejściem do mechanizmu atencji.

Oficjalna

Implementacja

Implementacje referencyjne

TensorFlow Addons – BahdanauAttention

Python · TensorFlow

PyTorch tutorial — NMT with attention

Python · PyTorch

Pułapki implementacyjne

Wolniejsza inferencja niż dot-product attentionŚrednia

MLP z tanh dla każdej pary (decoder, encoder) jest droższy niż czysty iloczyn skalarny stosowany w Luong/Transformer.

Rozwiązanie:Jeśli zależy nam na przepustowości — preferować dot-product (Luong) lub scaled dot-product (Transformer).

Sekwencyjność dekodera RNNWysoka

Mechanizm jest osadzony w rekurencyjnym dekoderze — kroki nie mogą być sparalelizowane w czasie, co ogranicza skalowanie na GPU.

Rozwiązanie:Zastąpienie RNN przez Transformer (self-attention) eliminuje to ograniczenie.

Ewolucja

Oryginalny paper · 2014 · ICLR 2015 (oral) · Dzmitry Bahdanau

Neural Machine Translation by Jointly Learning to Align and Translate

Dzmitry Bahdanau, Kyunghyun Cho, Yoshua Bengio

2014

Publikacja arXiv 1409.0473

Punkt przełomowy

Pierwsza wersja papieru wprowadzającego mechanizm atencji w NMT.

2015

Prezentacja ustna na ICLR 2015

Praca przyjęta jako oral na ICLR 2015 — szybkie rozpowszechnienie idei w społeczności.

2015

Luong Attention

Luong, Pham i Manning proponują warianty atencji multiplicative (dot, general, concat) jako uproszczenie i wzbogacenie Bahdanau Attention.

Effective Approaches to Attention-based Neural Machine Translation (artykuł)

2017

„Attention Is All You Need” — Transformer

Punkt przełomowy

Vaswani et al. rezygnują z RNN, opierając całą architekturę wyłącznie na scaled dot-product self-attention — bezpośrednia kontynuacja linii rozpoczętej przez Bahdanau Attention.

Attention Is All You Need (artykuł)