Architektura

YaRN

2023AktywnyOpublikowano: 9 czerwca 2026Aktualizacja: 9 czerwca 2026Opublikowany

YaRN (Yet another RoPE extensioN) to metoda rozszerzania okna kontekstu modeli językowych korzystających z Rotary Position Embeddings. Łączy częstotliwościowo-zależną interpolację RoPE z dodatkowym współczynnikiem skalującym attention i osiąga długie konteksty (np. 64k–128k tokenów) przy ułamku kosztu pełnego pretreningu.

Kluczowa innowacja

Pozwala rozszerzyć okno kontekstu modeli LLM opartych o RoPE znacznie poza długość pretreningu, używając „NTK-by-parts" interpolacji RoPE wraz ze skalowaniem temperatury attention, przy minimalnym douczaniu.

Kategoria

Architektura

Poziom abstrakcji

Building block

Poziom operacji

ModelPo-treningInferencja

Zastosowania

Rozszerzanie okna kontekstu open-source LLM (np. Llama 2 do 64k/128k)Długodokumentowe RAG i analiza pełnych książek/raportówModele kodowe pracujące na całych repozytoriachLong-context fine-tuning bez pełnego pretreningu

Jak działa

YaRN modyfikuje rotacje RoPE w sposób zależny od częstotliwości („NTK-by-parts"): wymiary o wysokiej częstotliwości (kodujące lokalne, krótkozasięgowe relacje) są ekstrapolowane bez interpolacji, wymiary o niskiej częstotliwości (kodujące zależności długozasięgowe) są interpolowane jak w Position Interpolation, a pośrednie wymiary płynnie przechodzą między tymi reżimami. Dodatkowo do logitów attention dodawany jest stały współczynnik temperatury (skalowanie 1/sqrt(t) ~ log(s)) korygujący entropię uwagi przy dłuższych sekwencjach. Tak zmodyfikowany model dotreniowuje się na małej porcji długich sekwencji (rząd ~0.1% tokenów pretreningu), aby ustabilizować jakość. Wariant „Dynamic-YaRN" pozwala stosować skalowanie tylko wtedy, gdy długość sekwencji rzeczywiście przekracza długość pretreningu, co minimalizuje regresję na krótkich promptach.

Rozwiązany problem

Modele LLM oparte o RoPE drastycznie tracą jakość, gdy długość kontekstu przekracza długość użytą w pretreningu — pozycje spoza zakresu treningu nie były nigdy widziane, a naiwne ekstrapolowanie RoPE prowadzi do rozpadu uwagi. Wcześniejsze metody (Position Interpolation, NTK-aware interpolation) wymagały dłuższego fine-tuningu lub gorzej radziły sobie z perpleksją na bardzo długich kontekstach.

Implementacja

Implementacje referencyjne

jquesnelle/yarn (oficjalne repo)

Python (PyTorch) · Jeffrey Quesnelle i in. (autorzy pracy)

Oficjalna

Hugging Face Transformers — rope_scaling: "yarn"

Python · Hugging Face

vLLM — wsparcie rope_scaling type "yarn"

Python / CUDA · vLLM project

llama.cpp — YaRN rope scaling

C/C++ · ggerganov i społeczność

Pułapki implementacyjne

Brak fine-tuningu po włączeniu YaRNWysoka

YaRN bez chociaż krótkiego dotrenowania na długich sekwencjach daje znacząco gorszą jakość niż wariant z fine-tuningiem — szczególnie na zadaniach „needle in a haystack".

Rozwiązanie:Dotrenować model na małym budżecie długich sekwencji (rząd ~0.1% tokenów pretreningu) zgodnie z przepisem z oryginalnej pracy.

Regresja jakości na krótkich promptach po statycznym YaRNŚrednia

Stałe włączenie YaRN dla wszystkich długości wejścia może lekko obniżyć jakość modelu na krótkich promptach (poniżej długości pretreningu).

Rozwiązanie:Użyć wariantu Dynamic-YaRN, który aktywuje skalowanie tylko gdy aktualna długość sekwencji przekracza długość pretreningu.

Pominięcie skalowania temperatury attentionŚrednia

Część implementacji ogranicza się do samej interpolacji RoPE (NTK-by-parts) i pomija skalowanie temperatury — wówczas wyniki są bliższe NTK-aware niż pełnemu YaRN.

Rozwiązanie:Zapewnić, że logity attention są mnożone przez stały współczynnik temperatury zgodnie ze wzorem z pracy.

Ewolucja

Oryginalny paper · 2023 · arXiv:2309.00071 (later ICLR 2024) · Bowen Peng

YaRN: Efficient Context Window Extension of Large Language Models

Bowen Peng, Jeffrey Quesnelle, Honglu Fan, Enrico Shippole

2021

RoPE (Rotary Position Embeddings)

Su i in. wprowadzają RoPE — kodowanie pozycji przez rotację par wymiarów embeddingów, fundament dla całej linii prac nad ekstensjami kontekstu.

RoPE (koncept)

2023

Position Interpolation (PI)

Chen i in. (Meta) pokazują, że liniowe skalowanie indeksów pozycji RoPE pozwala rozszerzyć kontekst Llamy po krótkim fine-tuningu. Pierwszy przełom w „cheap context extension".

2023

NTK-aware interpolation

Społeczność (Reddit user „bloc97") proponuje NTK-aware interpolację: zamiast jednolicie skalować indeksy, modyfikuje się bazę RoPE, zachowując ostrość lokalnych wymiarów. Bez fine-tuningu działa lepiej niż PI.

2023

YaRN — paper on arXiv

Punkt przełomowy

Peng, Quesnelle, Fan, Shippole publikują YaRN (arXiv:2309.00071). Łączą NTK-by-parts (różne reżimy interpolacji per pasmo częstotliwości) ze skalowaniem temperatury attention, dotreniowują na ~0.1% tokenów pretreningu i biją Position Interpolation oraz wcześniejsze NTK-aware metody na długich kontekstach.

YaRN: Efficient Context Window Extension of Large Language Models (artykuł)

2023

Llama 2 64k/128k YaRN checkpoints

Autorzy publikują otwarte modele Llama 2 7B/13B dotreniowane YaRN do okien 64k i 128k, które stają się popularnymi referencjami dla long-context open-source LLM.

2024

YaRN przyjęte przez ICLR 2024

Praca zostaje opublikowana na ICLR 2024, a YaRN staje się de facto standardem ekstensji kontekstu w open-source LLM (Qwen, Mistral-derived models, DeepSeek-V2/V3, Yi-200k, wiele dotreningów Llamy).

YaRN

Jak działa

Rozwiązany problem

Implementacja

Ewolucja

Hiperparametry (konfigurowalne osie)

Paradygmat wykonania

Równoległość

Wymagania sprzętowe