Architektura

RoPE

2021Aktualizacja: 4 maja 2026

Mechanizm pozycyjny uzywany w Transformerach: koduje wzgledna pozycje tokenow przez rotacje wektorow Q i K. Stosowany w LLaMA, Mistral, DBRX, Qwen i wielu innych modelach.

Kluczowa innowacja

Koduje pozycje tokenow przez rotacje wektorow w przestrzeni zespolonej, co umozliwia naturalna ekstrapolacje do dluzszych sekwencji niz widziane w trakcie treningu.

Kategoria

Architektura

Poziom abstrakcji

Primitive

Poziom operacji

WarstwaElement architektury

Zastosowania

Modele z długim kontekstem (LLaMA, Mistral, Gemma)Ekstrapolacja na sekwencje dłuższe niż treningoweStandardowy komponent nowoczesnych LLMPrzetwarzanie długich dokumentów i koduModele do analizy całych repozytoriów kodu

Jak działa

Wektory zapytań i kluczy w mechanizmie uwagi są rotowane o kąt proporcjonalny do pozycji tokenu przed obliczeniem iloczynu skalarnego. Dzięki temu uwaga między tokenami zależy od ich względnych odległości, a nie pozycji bezwzględnych.

Rozwiązany problem

Standardowe kodowanie pozycyjne (addytywne lub sinusoidalne) słabo generalizuje na sekwencje dłuższe niż widoczne w treningu. RoPE koduje pozycje przez rotację macierzy, co naturalnie przenosi się na dłuższe sekwencje.

Implementacja

Pułapki implementacyjne

Degradacja przy ekstrapolacji poza kontekst treningowyŚrednia

RoPE trenowany na sekwencjach do N tokenów degraduje się dla sekwencji >N bez technik ekstrapolacji (YaRN, LongRoPE, NTK-aware scaling). Naiwne rozszerzenie kontekstu prowadzi do chaotycznych uwag.

Implementacja wymaga precyzji float32 dla małych kątówŚrednia

Przy dużych pozycjach (np. pozycja 100k) kąty rotacji stają się bardzo małe — obliczenia w float16/bfloat16 mogą powodować błędy numeryczne. Zalecane: obliczenia RoPE w float32, cast do bf16 po aplikacji.

Źródła

RoFormer: Enhanced Transformer with Rotary Position Embedding (Su et al., 2021)