Robocikowo>ROBOCIKOWO

Transformer od zera · Self-attention od zera

Implementacja jednej głowicy attention

Self-attention od zera

Wprowadzenie

Na koniec rozdziału łączymy intuicję i wzór z praktyką PyTorch. Jedna głowica attention to moduł z projekcjami Q/K/V, maskowaniem, softmaxem, dropoutem i kontrolą kształtów.