Architektura

GLU

2016Aktualizacja: 4 maja 2026

Wariant warstwy feed-forward w Transformerach: wyjscie to iloczyn Hadamarda dwoch projekcji liniowych — jednej bramkowanej aktywacja (np. SiLU, GELU). Stosowany jako SwiGLU w LLaMA, Mistral, DBRX i wielu innych.

Kluczowa innowacja

Zastepuje klasyczna warstwe FFN Transformera przez iloczyn bramkowany dwoch projekcji liniowych, co zwieksza zdolnosc modelowania przy tej samej liczbie parametrow.

Kategoria

Architektura

Poziom abstrakcji

Primitive

Poziom operacji

WarstwaElement architektury

Zastosowania

Warstwy FFN w nowoczesnych LLM (LLaMA, Gemma, Mistral)Poprawa efektywności parametrycznej modeliArchitektura transformerów nowej generacjiBadania nad optymalnymi aktywacjami w sieciach głębokich

Jak działa

GLU dzieli wejście na dwie ścieżki: jedna przechodzi przez funkcję aktywacji (bramkę), druga jest mnożona przez wyjście bramki element-wise. Warianty takie jak SwiGLU (stosowany w LLaMA, Gemini) łączą bramkowanie z aktywacją Swish.

Rozwiązany problem

Standardowe warstwy feed-forward w transformerach używają prostych aktywacji (ReLU, GELU). GLU wprowadza mechanizm bramkowania, który selektywnie przepuszcza informacje, poprawiając jakość i efektywność modelu.

Implementacja

Pułapki implementacyjne

Podwojenie parametrów warstwy projekcjiŚrednia

GLU wymaga dwóch równoległych projekcji zamiast jednej — przy stałym rozmiarze modelu trzeba zmniejszyć rozmiar ukryty FFN o ~√2 żeby utrzymać ten sam budżet parametrów.

Znikające gradienty przy sigmoidal gatingŚrednia

Klasyczna wersja GLU z sigmoid bramką może stłumić gradienty w głębokich sieciach — dlatego warianty SwiGLU i GeGLU (z SiLU/GELU) są preferowane w nowoczesnych LLM.

Źródła

Language Modeling with Gated Convolutional Networks (Dauphin et al., 2016)

GLU Variants Improve Transformer (Noam Shazeer, 2020)