Architektura
GQA
2023Aktualizacja: 4 maja 2026
Mechanizm uwagi bedacy kompromisem miedzy Multi-Head Attention a Multi-Query Attention: kilka glow Q wspoldzieli pary K/V w obrebie grupy. Redukuje rozmiar KV-cache i przyspiesza inference. Stosowany w LLaMA 2/3, Mistral, DBRX, Gemma i wielu innych.
Kluczowa
innowacja
Rozwiazuje trade-off miedzy Multi-Head Attention (jakosc) a Multi-Query Attention (szybkosc inference): grupuje glowy Q wspoldzielac K i V w obrebie grupy, redukujac pamiec KV-cache bez znaczacej utraty jakosci.
Kategoria
Architektura
Poziom abstrakcji
Building block