Transformer od zera · Self-attention od zera
Implementacja jednej głowicy attention
Self-attention od zera
Wprowadzenie
Na koniec rozdziału łączymy intuicję i wzór z praktyką PyTorch. Jedna głowica attention to moduł z projekcjami Q/K/V, maskowaniem, softmaxem, dropoutem i kontrolą kształtów.