Transformer od zera · Multi-head attention
Implementacja `MultiHeadAttention` w PyTorch
Multi-head attention
Wprowadzenie
W tej lekcji składamy pełny moduł MultiHeadAttention: projekcję qkv, podział na głowice, scaled dot-product attention, maskowanie, połączenie głowic, projekcję wyjściową i testy kształtów.