Transformer
Self-Attention • Attention Mechanism
ArchitekturaAktywny
Rok wprowadzenia: 2017Status: AktywnyMechanizmy: 4
Transformer to architektura sieci neuronowych oparta na mechanizmie uwagi (attention), zaproponowana w 2017 roku. Stała się fundamentem wszystkich współczesnych dużych modeli językowych.
Jak działa
Transformer używa mechanizmu self-attention do równoległego przetwarzania sekwencji, co pozwala modelowi "widzieć" cały kontekst jednocześnie.
Problem rozwiązywany
Sekwencyjne przetwarzanie tekstu przez RNN było wolne i problematyczne dla długich sekwencji.
Kluczowe mechanizmy
self-attention
multi-head attention
positional encoding
feed-forward layers
Ocena
Mocne strony
- Równoległość obliczeń
- Długi kontekst
- Skalowalność
Ograniczenia
- Złożoność kwadratowa względem sekwencji
- Wysokie wymagania pamięciowe
