Robocikowo>ROBOCIKOWO

Transformer od zera · Self-attention od zera

Scaled dot-product attention

Self-attention od zera

Wprowadzenie

Scaled dot-product attention to konkretny wzór używany w Transformerze: wyniki QK^T są skalowane, maskowane, normalizowane softmaxem i mnożone przez V. Ta lekcja rozbija każdy krok.