Model projektuje wejście do trzech macierzy: Q (queries), K (keys) i V (values). Następnie liczy podobieństwa QK^T, skaluje je przez √d_k, normalizuje softmaxem wzdłuż pozycji kluczy i mnoży przez V, otrzymując ważoną sumę wartości dla każdego zapytania.
Pozwala liczyć atencję szybko i równolegle jako operacje macierzowe, unikając sekwencyjności RNN i kosztownego scoringu MLP.
Reprezentacje pozycji, dla których szukane są dopasowania.
Reprezentacje pozycji, względem których mierzone jest podobieństwo.
Wartości agregowane wagami atencji.
Złożoność czasowa: O(n² · d). Złożoność przestrzenna: O(n²).
W obrębie warstwy wszystkie pozycje mogą być przetwarzane równolegle jako operacje macierzowe.
Dominują mnożenia macierzy QK^T i AV, bardzo dobrze pasujące do GPU/Tensor Cores.