Czy modele językowe potrzebują snu? Sen LLM wyjaśniony

Transformery są dziś standardem w dużych modelach językowych, ale ich mechanizm uwagi skaluje się słabo: koszt obliczeń rośnie kwadratowo z długością kontekstu, a pamięć podręczna — liniowo. Czterej badacze z Carnegie Mellon University i University of Maryland proponują nietypowe rozwiązanie zainspirowane biologią: pozwólmy modelowi „zasnąć". Podczas snu model wielokrotnie przetwarza zgromadzony kontekst i zapisuje go w trwałych, szybkich wagach, zanim wyczyści pamięć podręczną uwagi.

Najważniejsze wnioski

• „Sen LLM" to faza konsolidacji: model wykonuje N rekurencyjnych przejść w przód nad zgromadzonym kontekstem i aktualizuje szybkie wagi w blokach typu state-space model (SSM), zanim usunie cache klucz–wartość (KV).

• Cały dodatkowy nakład obliczeniowy trafia do fazy snu. Predykcja (czuwanie) pozostaje pojedynczym przejściem w przód, więc latencja odpowiedzi się nie zmienia.

• Kluczowa obserwacja: wąskim gardłem hybryd SSM–uwaga nie jest pojemność pamięci, lecz ilość obliczeń dostępnych do przekształcenia wyrzuconego kontekstu w użyteczny stan wewnętrzny.

• Wydłużanie snu (większe N) poprawia wyniki na zadaniach syntetycznych (automat komórkowy Rule 110, wielokrokowe wyszukiwanie w grafie Depo) i na realistycznym benchmarku matematycznym GSM-Infinite. Największe zyski pojawiają się tam, gdzie wymagane jest głębsze rozumowanie.

• Metoda ma jednak swój koszt: trening wymaga N głębszych przejść w przód i wstecz, co spowalnia uczenie i bywa niestabilne.

Czym jest „sen LLM"?

Współczesne duże modele językowe opierają się na architekturze transformera, która przechowuje kontekst w pamięci podręcznej uwagi (KV cache) i sięga po wcześniejsze tokeny w miarę potrzeby. To rozwiązanie świetnie sprawdza się pod względem jakości, ale źle się skaluje — łączny koszt uwagi rośnie kwadratowo wraz z długością kontekstu.

Modele hybrydowe łączą warstwy uwagi z warstwami rekurencyjnymi (SSM), które przechowują przeszłość w stałej, „szybkiej" pamięci wagowej. Autorzy pytają jednak: czy taka pamięć wystarcza do rozumowania o treści, której model nie może już zobaczyć w oknie kontekstu? Ich odpowiedź brzmi: sama pojemność pamięci to za mało — potrzebne są dodatkowe obliczenia, które przekształcą zapamiętany kontekst w stan użyteczny do późniejszego wnioskowania.

„Sen LLM" to mechanizm konsolidacji pamięci. Gdy okno kontekstu się zapełnia, model wchodzi w fazę snu: nie przyjmuje nowych tokenów, lecz wielokrotnie (N razy) przetwarza zgromadzony kontekst i rekurencyjnie aktualizuje swoje szybkie wagi według wyuczonej, lokalnej reguły. Dopiero po konsolidacji czyści pamięć podręczną uwagi i wznawia pracę. Inspiracją jest neurobiologia: u zwierząt przenoszenie pamięci krótkotrwałej do długotrwałej wiąże się z odtwarzaniem hipokampalnym, szczególnie podczas snu.

Jak to działa?

Punktem wyjścia jest hybryda SSM–uwaga z ustalonym oknem kontekstu o rozmiarze L. Sekwencja dzielona jest na rozłączne fragmenty po najwyżej L tokenów, a po każdym fragmencie cache KV jest w całości usuwany (twarda eksmisja). To naturalnie dzieli przetwarzanie na dwie fazy: fazę konsolidacji (model musi zakodować kontekst w szybkich wagach) oraz fazę predykcji (model przewiduje odpowiedź).

Mechanika warstwy rekurencyjnej opiera się na bramkowanej regule typu Hebba (aktualizacja w stylu Mamby-2). Stan-pamięć S aktualizowany jest iloczynem zewnętrznym kluczy i wartości, z bramkami zapominania i zapisu:

\dots

W odróżnieniu od cache KV stan S nie rośnie wraz z długością sekwencji — przeszłość musi zostać skompresowana do pamięci o stałym rozmiarze. W eksperymentach autorzy używają Gated Delta Networks (GDN), które dodają do tej reguły korektę typu delta. Podczas snu model wykonuje N pętli nad blokami architektury, za każdym razem dopracowując szybkie wagi w blokach SSM. Dla N = 1 metoda redukuje się do zwykłej hybrydy.

Najważniejsze jest to, gdzie „przepływa" gradient. W przeciwieństwie do wcześniejszych modeli zapętlonych, gdzie gradient idzie przez rekurencyjnie dopracowywane wektory cech, tutaj gradient płynie przez dopracowane szybkie wagi — bo dopracowane cechy są po prostu odrzucane po śnie. Dzięki temu cała dodatkowa praca obliczeniowa zostaje „zamrożona" w wagach i służy późniejszej, jednoprzebiegowej predykcji.

Diagram 1 — Cykl czuwanie–sen przy twardej eksmisji

Plaintext

flowchart TD
  A[Strumien tokenow] --> B[Okno kontekstu pelne - L tokenow]
  B --> C{Faza}
  C -->|Konsolidacja| D[SEN: N rekurencyjnych przejsc w przod]
  D --> E[Aktualizacja szybkich wag S w blokach SSM]
  E --> F[Usuniecie cache KV - eksmisja]
  F --> B
  C -->|Predykcja| G[Pojedyncze przejscie w przod]
  G --> H[Odpowiedz - stala latencja czuwania]

Schemat pokazuje, że dodatkowe obliczenia trafiają wyłącznie do fazy konsolidacji (snu). Faza predykcji zawsze pozostaje pojedynczym przejściem w przód, co utrzymuje stałą latencję odpowiedzi.

Kluczowe elementy

Twarda eksmisja i dwie fazy. Co L tokenów okno jest czyszczone. W fazie konsolidacji maska straty jest zerowa (model tylko koduje), a w fazie predykcji model liczy maskowaną stratę entropii krzyżowej na tokenach odpowiedzi.

Ograniczenie latencji predykcji. W fazie predykcji każdy token odpowiedzi powstaje w jednym standardowym przejściu w przód. Dodatkowe pętle czy tokeny łańcucha myśli (chain-of-thought) są zabronione, bo zwiększałyby latencję. Cała wiedza potrzebna do predykcji musi zostać skonsolidowana zawczasu.

Sen jako głębokość rozumowania. Architektura jest spokrewniona z modelami o rekurencyjnej głębokości (looped / depth-recurrent). Autorzy pokazują, że samo zwiększanie liczby pętli snu (N od 2 do 4) systematycznie poprawia wyniki na trudnych instancjach — tych wymagających najgłębszego rozumowania nad wyeksmitowanym kontekstem.

Zadania testowe. Rule 110 to jednowymiarowy automat komórkowy (problem P-zupełny), w którym parametr t steruje wymaganą głębokością rozumowania. Depo to wielokrokowe wyszukiwanie w grafie, gdzie głębsze zapytania (większe k) wymagają głębszej trawersacji. GSM-Infinite to syntetyczny benchmark matematyczny wzorowany na GSM8K, który jednocześnie obciąża długi kontekst i wielokrokowe wnioskowanie.

Diagram 2 — Hybryda bazowa vs „sen LLM"

Plaintext

flowchart LR
  subgraph Bazowa[Hybryda bazowa - N=1]
    A1[Kontekst] --> A2[1 przejscie] --> A3[Szybkie wagi] --> A4[Plytkie rozumowanie]
  end
  subgraph Sleep[Sen LLM - N wieksze od 1]
    B1[Kontekst] --> B2[N przejsc - sen] --> B3[Dopracowane szybkie wagi] --> B4[Glebsze rozumowanie]
  end

Porównanie ilustruje istotę metody: przy tej samej długości kontekstu, regule eksmisji i koszcie fazy predykcji różnicę robi liczba pętli konsolidacji. Więcej snu oznacza więcej kroków na przekształcenie kontekstu w reprezentację wspierającą wnioskowanie.

Różnice względem innych podejść

Względem zwykłych hybryd SSM–uwaga. Standardowe hybrydy mają dość pojemnej pamięci, by przechować kontekst, ale ich wydajność spada, gdy rośnie wymagana głębokość rozumowania — nawet przy stałej ilości informacji do zapamiętania. „Sen LLM" atakuje właśnie ten deficyt obliczeń, a nie pojemności.

Względem kompresji i dystylacji kontekstu. Metody kompresji skracają to, co zostaje w oknie uwagi. Dystylacja kontekstu uczy model imitować „kontekstowego nauczyciela" przez spadek gradientu na zdefiniowanych z góry stratach. Tutaj zamiast spadku gradientu używana jest wyuczona, rekurencyjna reguła aktualizacji wag — bardziej elastyczna forma konsolidacji.

Względem treningu w czasie testu (test-time training). Pokrewne prace wykonują jeden krok gradientu na fragment kontekstu. Tu reguła aktualizacji pamięci jest wyuczonym przejściem w przód i nie musi odpowiadać jednemu krokowi spadku gradientu. Względem modeli zapętlonych przy predykcji: ta metoda nie pętli się w czasie odpowiedzi — dodatkowe obliczenia zostały już wydane na uformowanie wag.

Zastosowania

Najbliższym polem są zadania długiego horyzontu, w których model musi rozumować o informacji już wyeksmitowanej z aktywnego okna uwagi: długie problemy matematyczne i logiczne, wielokrokowe wyszukiwanie wiedzy oraz symulacja procesów sekwencyjnych.

Autorzy weryfikują metodę także na wstępnie wytrenowanych modelach. Hybrydę Jet-Nemotron 2B oraz zapętlony model Ouro 1.4B dostrajają na GSM-Infinite. Dla Jet sześć pętli podnosi dokładność na problemach sześciooperacyjnych z 0,742 do 0,812, a na ośmiooperacyjnych z 0,351 do 0,388. Dla Ouro cztery pętle podnoszą wynik na sześciu operacjach z 0,419 do 0,615, a na ośmiu z 0,210 do 0,272.

Wariant z eksmisją przesuwanego okna (sliding-window) zachowuje L−1 najnowszych tokenów. Przy oknie L = 512 i modelu Ouro 1.4B wydłużenie snu podnosi dokładność na dwuoperacyjnych problemach z 0,596 do 0,905 (poprawa o 52%). To sugeruje, że gdy aktywne okno jest dużo mniejsze niż cała sekwencja, dłuższy sen pomaga nie tylko w rozumowaniu, lecz także w kompresji i wyszukiwaniu istotnego kontekstu.

Ograniczenia

Koszt treningu. Metoda przenosi dodatkowe obliczenia do fazy konsolidacji, ale to nie jest darmowe: trening wymaga N głębszych przejść w przód i wstecz, co bywa wolne i niestabilne. Koszt rośnie mniej więcej liniowo z liczbą pętli N.

Sekwencyjność. Sen czyni trening sekwencyjnym względem kontekstu i głębokości — przed przetworzeniem kolejnego okna trzeba dokończyć poprzednie i wykonać N przejść snu. To ogranicza pełne zrównoleglenie wzdłuż osi sekwencji, choć przy dużym oknie L nie musi to pogarszać czasu zegarowego, bo GPU pozostaje nasycone.

Zakres dowodów. Badanie opiera się na kontrolowanych zadaniach syntetycznych i modelach średniej skali. Sami autorzy zaznaczają, że stabilizacja głębokiej rekurencji (np. przez gradienty niejawne czy ucinane wsteczne propagowanie w czasie) pozostaje otwartym, aktywnym tematem badawczym.

Dlaczego to ważne?

Praca przeformułowuje pytanie o pamięć w modelach rozumujących. Pokazuje, że skalowalna pamięć to nie to samo co skalowalne rozumowanie — i że rekurencja może służyć nie tylko do generowania odpowiedzi, lecz także do konsolidacji wiedzy.

Po pierwsze, rozdziela dwa koszty, które w długim kontekście zwykle się zlewają: koszt przechowywania informacji i koszt jej przetworzenia w użyteczny stan. To pozwala skalować rozumowanie bez podnoszenia latencji odpowiedzi.

Po drugie, analogia do snu nie jest tylko metaforą — to projektowa zasada budżetowania obliczeń. „Drogie" myślenie przenosi się poza moment odpowiedzi, podobnie jak konsolidacja pamięci u zwierząt zachodzi offline, gdy organizm nie reaguje na bodźce.

Po trzecie, wynik jest sygnałem ostrzegawczym dla samych hybryd SSM–uwaga. Sam fakt, że taka architektura ma dość pamięci, nie gwarantuje, że poradzi sobie z głębokim, sekwencyjnym wnioskowaniem nad treścią, której nie widzi już w oknie uwagi. Bez dodatkowej rekurencji łatwo o kruche rozwiązania-skróty.

Źródła

1. Lee S., McLeish S., Goldstein T., Fanti G. „Do Language Models Need Sleep? Offline Recurrence for Improved Online Inference". arXiv:2605.26099v2 (2026). https://arxiv.org/abs/2605.26099

2. Pełny tekst (PDF). https://arxiv.org/pdf/2605.26099

3. Wersja HTML. https://arxiv.org/html/2605.26099v2