Architektura

Scaled Dot-Product Attention

2017AktywnyOpublikowano: 28 maja 2026Aktualizacja: 28 maja 2026Opublikowany

Podstawowa operacja atencji w Transformerze: softmax(QK^T / √d_k)V.

Kluczowa innowacja

Zastąpienie addytywnego lub ogólnego scoringu szybkim iloczynem skalarnym zapytań i kluczy skalowanym przez √d_k, co stabilizuje gradienty i umożliwia wydajną wektoryzację atencji w Transformerze.

Kategoria

Architektura

Poziom abstrakcji

Building block

Poziom operacji

Element architekturyTreningInferencja

Zastosowania

TransformeryDuże modele językoweModele multimodalneVision TransformersMachine translation

Jak działa

Model projektuje wejście do trzech macierzy: Q (queries), K (keys) i V (values). Następnie liczy podobieństwa QK^T, skaluje je przez √d_k, normalizuje softmaxem wzdłuż pozycji kluczy i mnoży przez V, otrzymując ważoną sumę wartości dla każdego zapytania.