Transformer

Self-Attention • Attention Mechanism

ArchitekturaAktywny

Rok wprowadzenia: 2017Status: AktywnyMechanizmy: 4

Transformer to architektura sieci neuronowych oparta na mechanizmie uwagi (attention), zaproponowana w 2017 roku. Stała się fundamentem wszystkich współczesnych dużych modeli językowych.

Jak działa

Transformer używa mechanizmu self-attention do równoległego przetwarzania sekwencji, co pozwala modelowi "widzieć" cały kontekst jednocześnie.

Problem rozwiązywany

Sekwencyjne przetwarzanie tekstu przez RNN było wolne i problematyczne dla długich sekwencji.

Kluczowe mechanizmy

self-attention

multi-head attention

positional encoding

feed-forward layers

Ocena

Mocne strony

Równoległość obliczeń
Długi kontekst
Skalowalność

Ograniczenia

Złożoność kwadratowa względem sekwencji
Wysokie wymagania pamięciowe

Powiązania

Powiązane modele

TEST Claude 4 Opus [TESTOWY]

TEST Claude Family

Wróć do katalogu konceptów