Transformer od zera · Self-attention od zera
Scaled dot-product attention
Self-attention od zera
Wprowadzenie
Scaled dot-product attention to konkretny wzór używany w Transformerze: wyniki QK^T są skalowane, maskowane, normalizowane softmaxem i mnożone przez V. Ta lekcja rozbija każdy krok.