Robocikowo>ROBOCIKOWO

Transformer od zera · Multi-head attention

Po co wiele głowic attention

Multi-head attention

Wprowadzenie

Jedna głowica attention potrafi pobierać kontekst, ale wiele głowic pozwala modelowi uczyć się różnych relacji równolegle. W tej lekcji zobaczysz, po co dzielimy reprezentację na głowice.