Architektura

GQA

2023Aktualizacja: 4 maja 2026

Mechanizm uwagi bedacy kompromisem miedzy Multi-Head Attention a Multi-Query Attention: kilka glow Q wspoldzieli pary K/V w obrebie grupy. Redukuje rozmiar KV-cache i przyspiesza inference. Stosowany w LLaMA 2/3, Mistral, DBRX, Gemma i wielu innych.

Kluczowa innowacja

Rozwiazuje trade-off miedzy Multi-Head Attention (jakosc) a Multi-Query Attention (szybkosc inference): grupuje glowy Q wspoldzielac K i V w obrebie grupy, redukujac pamiec KV-cache bez znaczacej utraty jakosci.

Kategoria

Architektura

Poziom abstrakcji

Building block

Źródła

GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints (Ainslie et al., 2023)