Transformer od zera · Optymalizacje i współczesne warianty
FlashAttention i wydajność mechanizmu attention
Optymalizacje i współczesne warianty
Wprowadzenie
Zobaczysz, dlaczego klasyczne attention jest kosztowne pamięciowo oraz jak FlashAttention poprawia wydajność przez kafelkowanie obliczeń i ograniczenie zapisów dużej macierzy attention do pamięci GPU.