Robocikowo>ROBOCIKOWO

Transformer od zera · Optymalizacje i współczesne warianty

FlashAttention i wydajność mechanizmu attention

Optymalizacje i współczesne warianty

Wprowadzenie

Zobaczysz, dlaczego klasyczne attention jest kosztowne pamięciowo oraz jak FlashAttention poprawia wydajność przez kafelkowanie obliczeń i ograniczenie zapisów dużej macierzy attention do pamięci GPU.