Architektura AI

Czy modele językowe potrzebują snu? LLM Sleep i offline recurrence

Pan Robocik8 czerwca 2026 · 8 min czytania

Pan Robocik

8 czerwca 2026 · 8 min czytaniaAI-assisted · weryfikacja redakcyjna

czy-modele-jezykowe-potrzebuja-snu-llm-sleep-cover

Modele językowe coraz częściej obsługują długie, wieloetapowe zadania, ale ich mechanizm uwagi skaluje się słabo wraz z długością kontekstu. LLM Sleep to pomysł, by — wzorem biologicznego snu — model okresowo „przespał" świeży kontekst i przekuł go w trwałe wagi, zanim wyczyści pamięć podręczną.

Czym jest LLM Sleep?

LLM Sleep to mechanizm treningu i wnioskowania dla hybrydowych modeli językowych, w którym model okresowo wchodzi w fazę „snu” — wykonuje wiele rekurencyjnych przebiegów offline nad zgromadzonym kontekstem i przekształca go w trwałe szybkie wagi (fast weightsfast weights: Wagi sieci neuronowej aktualizowane dynamicznie podczas wnioskowania na podstawie bieżącego kontekstu — w odróżnieniu od wolnych wag (slow weights) uczonych w trakcie treningu. W architekturze LLM Sleep szybkie wagi przechowują skompresowaną wiedzę z fazy offline, eliminując potrzebę trzymania jej w KV cache.), zanim usunie świeże tokeny z pamięci podręcznej uwagi (KV cache). Opisano go w pracy Do Language Models Need Sleep? Offline Recurrence for Improved Online Inference autorstwa zespołu z Carnegie Mellon University i University of Maryland.

Warto od razu zaznaczyć, czym LLM Sleep nie jest. To nie jest nowy model językowy ani gotowy produkt. To raczej technika architektoniczna — sposób organizacji obliczeń, który można nałożyć na istniejące hybrydy łączące uwagę (attention) z modelami przestrzeni stanów (State-Space Models, SSM). Nie jest też odmianą łańcucha myśli (Chain-of-Thought), bo cała dodatkowa praca obliczeniowa wykonywana jest zanim model zacznie generować odpowiedź, a nie w trakcie jej produkcji.

Kluczowa intuicja jest prosta. Standardowe hybrydy potrafią skompresować przeszłość do macierzy o stałym rozmiarze, ale robią to jednym przejściem. Jeśli zadanie wymaga głębokiego, wieloetapowego rozumowania na danych, które zostały już wyrzucone z dokładnej pamięci uwagi, pojedynczy przebieg po prostu nie wystarcza. LLM Sleep daje modelowi czas — dodatkowe przebiegi — na „przemyślenie" kontekstu przed jego utratą.

Kto za tym stoi?

Pracę przygotował zespół czterech badaczy: Sangyun Lee i Giulia Fanti z Carnegie Mellon University oraz Sean McLeish i Tom Goldstein z University of Maryland. Tom Goldstein jest znany z prac nad sieciami głęboko-rekurencyjnymi i ekstrapolacją rozumowania, a Sean McLeish współtworzył wcześniejsze badania nad depth-recurrent language models — i ten rodowód widać w architekturze LLM Sleep.

Sam pomysł szybkich wag ma dłuższą historię. Koncepcję „programatorów szybkich wag” zaproponował jeszcze w latach 90. Jürgen Schmidhuber, a współczesne modele liniowo-rekurencyjne, takie jak Mamba-2 czy Gated DeltaNet, są jej bezpośrednimi potomkami. LLM Sleep dokłada do tej linii nowy element: pomysł, że rekurencja może służyć nie tylko predykcji, ale też konsolidacji pamięci.

Jak to działa?

Mechanizm dzieli pracę modelu na dwie fazy, analogiczne do czuwania i snu.

W fazie czuwania model przetwarza strumień tokenów standardowo — mapuje je na wektory, przepuszcza przez warstwy uwagi i zapełnia KV cache, aż okno kontekstowe o rozmiarze L się wypełni.
Gdy okno jest pełne, model dochodzi do tzw. granicy eksmisji (eviction boundary). Tu zaczyna się sen. Zamiast natychmiast wyrzucić stare tokeny, model wykonuje N rekurencyjnych przebiegów nad zgromadzonym fragmentem kontekstu. W trakcie tej fazy nie przyjmuje żadnych nowych tokenów — jak śpiące zwierzę odcięte od bodźców zewnętrznych. Każdy przebieg pozwala warstwom SSM iteracyjnie nadpisywać i porządkować zawartość macierzy szybkich wag według wyuczonej reguły lokalnej.
Dopiero po N pętlach następuje wybudzenie: KV cache zostaje wyczyszczony, surowe tokeny przepadają, a model wraca do czuwania, by zebrać kolejne okno. Liczba N to dosłownie „długość snu". Przy N = 1 mechanizm degeneruje się do zwykłej hybrydy SSM-uwaga.

Całość jest różniczkowalna i trenowana od końca do końca. Co ciekawe, gradient płynie nie przez wektory cech (jak w klasycznych RNN), lecz przez same szybkie wagi — bo to one przechowują całą użyteczną informację po śnie. Model jest więc zmuszony nauczyć się dobrego algorytmu konsolidacji, a nie tylko surowej kompresji.

Z jakich elementów się składa?

Hybryda attention-SSM. Warstwy uwagi zapewniają precyzyjny dostęp do bliskiego kontekstu, a bloki SSM — takie jak Gated DeltaNet czy Mamba-2 — utrzymują skompresowaną, stałej wielkości pamięć dalekiego kontekstu. W eksperymentach najczęściej używano Gated DeltaNet, który dokłada korektę w stylu reguły delta do prostej, bramkowanej aktualizacji Hebbowskiej.
Twarda eksmisja kontekstu. Aby uczciwie zmierzyć, czy model potrafi rozumować o danych, których już nie widzi, badacze co LL: L to rozmiar okna kontekstu — liczba tokenów, które model trzyma naraz w pamięci uwagi (KV cache), zanim wejdzie w fazę snu. tokenów całkowicie czyszczą KV cacheKV cache: KV cache (pamięć podręczna klucz-wartość) to bufor, w którym model trzyma przetworzone tokeny bieżącego okna, żeby mieć do nich szybki dostęp w mechanizmie uwagi.. Model musi więc w pełni zakodować informację w szybkich wagach.
Rekurencja głębokościowa — pętla obejmująca wszystkie DD: D to liczba bloków (warstw) modelu. Rekurencja głębokościowa powtarza przejście przez wszystkie D bloków. bloków modelu, powtarzana NN: N to długość snu — liczba rekurencyjnych przebiegów, jakie model wykonuje nad zgromadzonym kontekstem w fazie snu, zanim wyczyści pamięć. Przy N = 1 sen praktycznie znika. razy w fazie snu. To ona dostarcza dodatkową moc obliczeniową potrzebną do głębokiego rozumowania.

Do czego może być używane?

Autorzy testowali mechanizm na trzech rodzajach zadań o rosnącej trudności.

Automat komórkowy Rule 110 — to rząd komórek, z których każda jest zerem albo jedynką i w każdym kroku zmienia się według jednej prostej reguły zależnej od sąsiadów. Mimo tej prostoty układ potrafi wykonać dowolne obliczenie — jest tak samo silny jak maszyna Turinga. Model dostaje początkowy wzór komórek i ma przewidzieć, jak będzie on wyglądał po t krokach. Im większe t, tym głębszego rozumowania wymaga zadanie, a ilość potrzebnej pamięci pozostaje taka sama. Przy trudnym ustawieniu (t = 32) zwykła hybryda, wytrenowana na ~5 mld tokenów, trafiała ledwie w ~10% przypadków — niewiele ponad losowe zgadywanie. Dwie pętle snu podniosły wynik do ~20%, a trzy–cztery przebiły 30%.
Depo — wieloskokowe wyszukiwanie w grafie. Model dostaje przetasowany, pofragmentowany graf skierowany i po jego eksmisji musi znaleźć węzeł oddalony o k skoków. Dodatkowe pętle offline przyspieszały uczenie zwłaszcza dla zapytań wymagających 4 lub więcej skoków — czyli najgłębszego rozumowania.
GSM-Infinite — najbardziej realistyczny test: syntetyczny benchmark matematyczny wzorowany na GSM8K, na którym douczono pretrenowane modele Jet-Nemotron 2B i Ouro 1.4B. Dla prostych zadań (2–4 operacje) wyniki szybko się nasycały niezależnie od liczby pętli. Dla trudnych przewaga snu rosła: w Jet-Nemotron sześć pętli podniosło trafność na zadaniach 6-operacyjnych z 0,742 do 0,812, a w Ouro cztery pętle podbiły wynik z 0,419 do 0,615.

Czym różni się od innych rozwiązań?

Moment ponoszenia kosztu. Łańcuch myśli i klasyczne modele zapętlone (looped models) płacą za głębsze rozumowanie w momencie generowania odpowiedzi — każda dodatkowa pętla to dłuższy czas oczekiwania użytkownika. LLM Sleep przenosi ten koszt do fazy konsolidacji kontekstu, czyli momentu, gdy użytkownik dopiero wprowadza dane. Predykcja pozostaje jednoprzebiegowa i szybka.
Wobec test-time training i kompresji kontekstu. W stosunku do test-time training, gdzie model robi jeden krok gradientu na fragment kontekstu, LLM Sleep używa wyuczonego, rekurencyjnego przebiegu jako reguły aktualizacji — bardziej elastycznego niż pojedynczy krok stałego celu. W stosunku do metod kompresji kontekstu, które skracają to, co zostaje w oknie uwagi, LLM Sleep przenosi wyeksmitowany kontekst do pamięci wagowej.
Pamięć kontra rozumowanie. Kluczowa teza pracy: bywa, że hybrydy zawodzą nie z powodu braku pojemności pamięci, jak sugerowały wcześniejsze badania, lecz z braku mocy obliczeniowej na przekształcenie zapamiętanego kontekstu w użyteczny stan. LLM Sleep rozdziela więc skalowalność pamięci od skalowalności rozumowania.

Najważniejsze ograniczenia i wyzwania

Koszt treningu. Każda epoka wymaga N-krotnie głębszych przebiegów w przód i w tył, więc przepustowość treningu maleje mniej więcej odwrotnie proporcjonalnie do N. Trening staje się też sekwencyjny wzdłuż okien kontekstu, bo stan jednego okna zależy od poprzedniego — co utrudnia pełną paralelizację.
Stabilność uczenia. Kiedy ten sam fragment sieci powtarza się wiele razy z rzędu, sygnał, który podczas nauki koryguje model, łatwo wymyka się spod kontroli — albo narasta lawinowo, albo zanika do zera. To stary, dobrze znany problem sieci, które przetwarzają dane „w kółko” (tzw. sieci rekurencyjne, RNN). Żeby go obejść, autorzy użyli specjalnego algorytmu uczenia o nazwie Muon i zaczynali trening od pojedynczego przejścia, a dopiero potem stopniowo zwiększali liczbę powtórzeń.
Opłacalność zależna od zadania. Przy trywialnych zapytaniach sen daje znikomy zysk — model marnuje moc na nieistotny tekst. Brakuje mechanizmu adaptacyjnego, w którym to model sam decydowałby, kiedy „zasnąć”. Warto też pamiętać, że eksperymenty prowadzono na stosunkowo małych modelach (1,4–2 mld parametrów) i głównie na sztucznie ułożonych, uproszczonych testach stworzonych specjalnie pod badanie (tzw. zadaniach syntetycznych), a nie na danych z prawdziwego życia. Nie wiadomo więc, czy te same wnioski utrzymają się przy największych, najbardziej zaawansowanych modelach na rynku (tzw. modelach granicznych).

Dlaczego to jest istotne?

Nowa oś obliczeń. LLM Sleep jest interesujący nie dlatego, że bije rekordy w benchmarkach, lecz dlatego, że proponuje inny sposób myślenia o tym, gdzie ulokować obliczenia. Branża przez lata szła w dwóch kierunkach: powiększać okno kontekstu (drogie pamięciowo) albo powiększać kompresory w modelach liniowych (stratne). Ta praca pokazuje trzecią oś — czas spędzony na organizowaniu pamięci.
Rozumowanie bez opóźnień. Rozdzielenie złożoności rozumowania od opóźnienia generowania jest praktycznie cenne. Asystent, który „przemyśli” długi dokument w trakcie jego wczytywania, a potem odpowiada błyskawicznie, jest atrakcyjniejszy od takiego, który każe czekać na rozwijający się łańcuch myśli. To zbieżność bliższa temu, jak działa ludzka pamięć — konsolidacja zachodzi poza momentem reakcji.
Konieczna ostrożność. To wciąż wczesny, akademicki wynik na małej skali. Biologiczna metafora snu jest sugestywna, ale nie dowodzi przewagi praktycznej w produkcji. Wartość pracy leży raczej w postawieniu właściwego pytania: być może wąskim gardłem dzisiejszych modeli nie jest sama wielkość, lecz brak czasu na racjonalne przetworzenie tego, co i tak zostanie zapomniane.

LLM Sleep nie jest gotowym narzędziem, lecz kierunkiem badawczym — i jednym z czytelniejszych argumentów za tym, że rekurencja w sieciach neuronowych ma sens nie tylko przy odpowiadaniu, ale i przy zapamiętywaniu.

Źródła

arXiv — Sangyun Lee, Sean McLeish, Tom Goldstein, Giulia Fanti, Do Language Models Need Sleep? Offline Recurrence for Improved Online Inference — link
arXiv — Songlin Yang i in., Gated Delta Networks: Improving Mamba2 with Delta Rule — link
arXiv — Tri Dao, Albert Gu, Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality (Mamba-2) — link
X (wątek autora) — Sangyun Lee, Almost all animals sleep. Why don’t LMs? — zapowiedź pracy z wizualizacją mechanizmu — link

Udostępnij to opracowanie

01Kurs

Czy modele językowe potrzebują snu? LLM Sleep i offline recurrence

Czym jest LLM Sleep?

Kto za tym stoi?

Jak to działa?

Z jakich elementów się składa?

Do czego może być używane?

Czym różni się od innych rozwiązań?

Najważniejsze ograniczenia i wyzwania

Dlaczego to jest istotne?

Źródła

Transformer od zera

Sieci neuronowe od podstaw do nowoczesnej AI

LLM

CoT

Context Window

Recurrent Neural Network

Transformer

Self-Attention

Do Language Models Need Sleep? Offline Recurrence for Improved Online Inference

Gated Delta Networks: Improving Mamba2 with Delta Rule

Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality

Czy modele językowe potrzebują snu? LLM Sleep i offline recurrence

Czym jest LLM Sleep?

Kto za tym stoi?

Jak to działa?

Z jakich elementów się składa?

Do czego może być używane?

Czym różni się od innych rozwiązań?

Najważniejsze ograniczenia i wyzwania

Dlaczego to jest istotne?

Źródła

Dalej zgłębiaj temat

Transformer od zera

Sieci neuronowe od podstaw do nowoczesnej AI

LLM

CoT

Context Window

Recurrent Neural Network

Transformer

Self-Attention

Do Language Models Need Sleep? Offline Recurrence for Improved Online Inference

Gated Delta Networks: Improving Mamba2 with Delta Rule

Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality