Sieci neuronowe od podstaw do nowoczesnej AI · Mechanizm uwagi i Transformer

Architektura Transformera — blok encodera, FFN, LayerNorm, residual

Mechanizm uwagi i Transformer

Wprowadzenie

Mając już self-attention i positional encoding, składamy z nich pełny blok Transformera. W oryginalnej pracy Vaswani et al. (2017) encoder to stos N=6 identycznych bloków, gdzie każdy blok ma dwie podwarstwy: (1) multi-head self-attention oraz (2) position-wise feed-forward network (FFN). Każda podwarstwa jest opakowana w "Add & Norm": y = LayerNorm(x + Sublayer(x)) — to klasyczny wariant post-LN. FFN to dwie warstwy liniowe z aktywacją (ReLU w 2017, dziś częściej GELU lub SwiGLU): FFN(x) = max(0, xW_1 + b_1)W_2 + b_2, z d_ff = 4·d_model (np. 512 → 2048 → 512). FFN działa niezależnie na każdej pozycji — to "soft per-token MLP". LayerNorm (Ba et al. 2016) normalizuje po wymiarze cech (a nie po batchu, jak BatchNorm), dzięki czemu nie zależy od rozmiaru batcha — kluczowe dla NLP, gdzie sekwencje mają różne długości. Decoder ma trzy podwarstwy: masked multi-head self-attention (causal mask zapobiega "podglądaniu przyszłości"), encoder–decoder cross-attention (Q z decodera, K/V z ostatniej warstwy encodera) i FFN. Współczesne LLM (LLaMA, Mistral, GPT-3+) używają wariantu pre-LN (LayerNorm przed sublayer) dla stabilności trenowania bez warmupu, RMSNorm zamiast LN i SwiGLU zamiast ReLU.