Robocikowo>ROBOCIKOWO

Transformer od zera · Optymalizacje i współczesne warianty

MQA, GQA i redukcja kosztu inferencji

Optymalizacje i współczesne warianty

Wprowadzenie

Poznasz Multi-Query Attention i Grouped-Query Attention: techniki zmniejszające koszt cache K/V podczas generowania, bez całkowitego rezygnowania z wielu głowic query.