Powrót do katalogu

Transformer

Self-Attention Model

ArchitekturaAktywny
Rok wprowadzenia: 2017Status: AktywnyMechanizmy: 3
Transformer jest fundamentalną architekturą wszystkich współczesnych dużych modeli językowych, opartą na mechanizmie uwagi (attention) zaproponowanym w 2017 roku.

Jak działa

Self-attention pozwala na równoległe przetwarzanie sekwencji z uwzględnieniem wszystkich zależności.

Problem rozwiązywany

RNN/LSTM były wolne i nieefektywne dla długich sekwencji.

Kluczowe mechanizmy

self-attention
positional encoding
feed-forward layers

Ocena

Mocne strony

  • Równoległość
  • Długi kontekst
  • Skalowalność

Ograniczenia

  • Złożoność O(n²)
  • Wysokie wymagania pamięciowe