Transformer od zera · Multi-head attention
Po co wiele głowic attention
Multi-head attention
Wprowadzenie
Jedna głowica attention potrafi pobierać kontekst, ale wiele głowic pozwala modelowi uczyć się różnych relacji równolegle. W tej lekcji zobaczysz, po co dzielimy reprezentację na głowice.