Robocikowo>ROBOCIKOWO

Transformer od zera · Multi-head attention

Implementacja `MultiHeadAttention` w PyTorch

Multi-head attention

Wprowadzenie

W tej lekcji składamy pełny moduł MultiHeadAttention: projekcję qkv, podział na głowice, scaled dot-product attention, maskowanie, połączenie głowic, projekcję wyjściową i testy kształtów.