Transformer od zera · Optymalizacje i współczesne warianty
MQA, GQA i redukcja kosztu inferencji
Optymalizacje i współczesne warianty
Wprowadzenie
Poznasz Multi-Query Attention i Grouped-Query Attention: techniki zmniejszające koszt cache K/V podczas generowania, bez całkowitego rezygnowania z wielu głowic query.