Architektura

LongRoPE

2024AktywnyOpublikowano: 9 czerwca 2026Aktualizacja: 9 czerwca 2026Opublikowany

LongRoPE to metoda Microsoftu rozszerzająca okno kontekstu modeli LLM z RoPE do ponad 2 mln tokenów. Zamiast jednolitej interpolacji (jak Position Interpolation czy YaRN) wyszukuje optymalne, niejednorodne współczynniki RoPE per wymiar i per pozycja przy pomocy algorytmu ewolucyjnego, dzięki czemu osiąga ekstremalnie długi kontekst przy minimalnym fine-tuningu.

Kluczowa innowacja

Rozszerza okno kontekstu LLM opartych o RoPE do ponad 2 milionów tokenów, identyfikując dwie niejednorodności w interpolacji pozycyjnej (per wymiar i per pozycja tokenu) i wyszukując ich współczynniki algorytmem ewolucyjnym, w połączeniu z progresywną strategią rozszerzania (256k → 2048k) i readjustacją na krótkich kontekstach.

Kategoria

Architektura

Poziom abstrakcji

Building block

Poziom operacji

ModelPo-treningInferencja

Zastosowania

Rozszerzanie kontekstu LLM do 1M–2M+ tokenówAnaliza całych książek, baz kodu lub długich rozmów wielogodzinnychModele Microsoftu z rodziny Phi-3 (Phi-3 Mini 128k, Phi-3.5 Mini 128k itp.) używają LongRoPELong-context fine-tuning bez konieczności pretreningu od zera

Jak działa

LongRoPE wprowadza dwie niejednorodności: (1) per-dimension — różne wymiary RoPE dostają różne, niemonotoniczne współczynniki interpolacji, oraz (2) per-token — pierwsze tokeny mają mniejsze skalowanie niż dalsze pozycje. Optymalne wartości tych współczynników są wyszukiwane offline algorytmem ewolucyjnym (mutacja + selekcja po perpleksji na próbce długich tekstów), zamiast wyprowadzane wzorem. Następnie stosowana jest progresywna strategia rozszerzania: model najpierw szuka i fine-tuningiem stabilizuje 256k, a potem algorytm wyszukuje współczynniki dla 2048k BEZ kolejnego fine-tuningu. Ostatni krok to readjustacja: na krótkich kontekstach (4k/8k) używane są oddzielne, lekko zmodyfikowane współczynniki RoPE, co przywraca jakość modelu na typowych krótkich promptach.

Rozwiązany problem

Metody jednolitej interpolacji RoPE (Position Interpolation, NTK-aware, YaRN) zakładają, że wszystkie wymiary i pozycje wymagają tego samego skalowania. Empirycznie tak nie jest — różne częstotliwości RoPE oraz różne pozycje (zwłaszcza początkowe tokeny) reagują inaczej. Próby ekstremalnego rozszerzenia (rzędu setek tysięcy lub milionów tokenów) tymi metodami prowadzą do gwałtownego wzrostu perpleksji i kompletnego rozpadu uwagi w long-context.

Implementacja

Implementacje referencyjne

microsoft/LongRoPE (oficjalne repo)

Python (PyTorch) · Microsoft Research (autorzy pracy)

Oficjalna

Hugging Face Transformers — rope_scaling: "longrope"

Python · Hugging Face

Phi-3 Mini 128k Instruct (referencyjne wdrożenie)

Python · Microsoft

Oficjalna

Pułapki implementacyjne

Pominięcie kroku ewolucyjnego wyszukiwania współczynnikówKrytyczna

Próba odtworzenia LongRoPE z arbitralnymi, jednorodnymi współczynnikami redukuje ją de facto do YaRN/PI i niweluje główną korzyść (skalowanie do milionów tokenów).

Rozwiązanie:Uruchomić algorytm ewolucyjny (kod z microsoft/LongRoPE) na próbce długich tekstów dla docelowej długości kontekstu lub użyć opublikowanych współczynników dla danego modelu (np. Phi-3 128k).

Brak readjustacji na krótkich kontekstachWysoka

Bez oddzielnych współczynników dla sekwencji krótszych niż pretreningowa LongRoPE zauważalnie obniża jakość na krótkich promptach — efekt analogiczny do statycznego YaRN, ale silniejszy ze względu na agresywne skalowanie.

Rozwiązanie:Zastosować dwa zestawy współczynników (krótki/długi kontekst) zgodnie z procedurą readjustacji opisaną w pracy.

Próba skoku do 2M bez progresywnego etapu 256kŚrednia

Praca pokazuje, że bezpośrednie wyszukanie współczynników dla 2M bez wcześniejszego stabilizującego fine-tuningu na 256k pogarsza jakość i destabilizuje search.

Rozwiązanie:Zachować dwustopniową strategię: search + fine-tune do 256k, następnie search do 2048k bez kolejnego fine-tuningu.

Ewolucja

Oryginalny paper · 2024 · arXiv:2402.13753 (later ICML 2024) · Yiran Ding

LongRoPE: Extending LLM Context Window Beyond 2 Million Tokens

Yiran Ding, Li Lyna Zhang, Chengruidong Zhang, Yuanyuan Xu, Ningxin Zheng, Jiahang Xu, Fan Yang, Mao Yang

2021

RoPE (Rotary Position Embeddings)

Su i in. wprowadzają RoPE — fundament pod całą rodzinę metod ekstensji kontekstu, w tym Position Interpolation, NTK-aware, YaRN i LongRoPE.

RoPE (koncept)

2023

Position Interpolation i NTK-aware

Position Interpolation (Meta) oraz NTK-aware interpolation (społeczność) pokazują, że jednolite skalowanie/przebudowa bazy RoPE rozszerza kontekst po krótkim fine-tuningu.

2023

YaRN — NTK-by-parts + temperature

YaRN łączy NTK-by-parts (różne reżimy interpolacji per pasmo częstotliwości) ze skalowaniem temperatury attention i staje się standardem dla 64k–128k.

YaRN (koncept)

2024

LongRoPE — paper Microsoftu

Punkt przełomowy

Microsoft publikuje LongRoPE (arXiv:2402.13753). Dwie niejednorodności (per-dimension i per-token), wyszukiwanie ewolucyjne, progresywna strategia 256k → 2048k oraz readjustacja krótkich kontekstów — pierwsza metoda osiągająca okno >2M tokenów.

LongRoPE: Extending LLM Context Window Beyond 2 Million Tokens (artykuł)

2024

Phi-3 / Phi-3.5 z LongRoPE

Microsoft wypuszcza modele Phi-3 Mini 128k i Phi-3.5 Mini 128k, w których LongRoPE jest oficjalną metodą rozszerzenia kontekstu z 4k do 128k — pierwsze szerokie wdrożenie produkcyjne.

2024

ICML 2024 acceptance

LongRoPE zostaje opublikowany na ICML 2024 jako jeden z głównych wkładów w problem ekstremalnego rozszerzania kontekstu LLM.

Hiperparametry (konfigurowalne osie)

Target context lengthKrytyczna

Docelowa długość okna kontekstu po rozszerzeniu. Oryginalna praca demonstruje skalowanie z 4k do 2048k (×512).

128kTypowa wartość dla Phi-3 Mini 128k

256kEtap pośredni progresywnego rozszerzania

2048kMaksymalne wartości pokazane w pracy

Per-dimension RoPE rescale factorsKrytyczna

Niemonotoniczny wektor współczynników skalowania, jeden na wymiar RoPE. Wyszukiwany algorytmem ewolucyjnym. Główna nowość LongRoPE względem YaRN/NTK-aware.

Initial token rescale (n̂)Wysoka

Liczba początkowych tokenów, dla których stosowane jest mniejsze skalowanie pozycji niż dla dalszych pozycji. Druga niejednorodność wykrywana eksperymentalnie.

Evolutionary search budgetŚrednia

Liczba iteracji algorytmu ewolucyjnego oraz wielkość populacji. Determinuje koszt offline wyszukania współczynników.

Short-context readjust factorsWysoka

Oddzielny zestaw współczynników RoPE używanych, gdy sekwencja jest krótsza od pretreningu, aby zachować jakość na typowych krótkich promptach.

LongRoPE

Jak działa

Rozwiązany problem

Implementacja

Ewolucja

Hiperparametry (konfigurowalne osie)

Paradygmat wykonania

Równoległość

Wymagania sprzętowe