Transformer od zera · Optymalizacje i współczesne warianty
RoPE zamiast klasycznych pozycji
Optymalizacje i współczesne warianty
Wprowadzenie
Poznasz RoPE (Rotary Position Embedding), czyli sposób kodowania pozycji przez obrót wektorów query i key zamiast dodawania osobnego wektora pozycyjnego do embeddingu tokenu.