Dla wejscia X obliczane sa trzy macierze: Q = X*W_Q, K = X*W_K, V = X*W_V. Wynik to Attention(Q,K,V) = softmax(QK^T / sqrt(d_k)) * V. Dzielenie przez sqrt(d_k) zapobiega zbyt duzym wartosciom iloczynu skalarnego. W wersji Multi-Head Attention proces wykonywany jest równolegle w h niezaleznych glowach, a wyniki sa konkatenowane.
Rekurencyjne sieci neuronowe (RNN, LSTM) przetwarzają sekwencje krok po kroku, co utrudnia modelowanie długodystansowych zależności i uniemozliwia pełne zrównoleglenie treningu.
Złożoność czasowa: O(n^2 * d). Złożoność przestrzenna: O(n^2 + n*d).