Wnioskowanie

LLM Sleep

2025BadawczyOpublikowano: 6 czerwca 2026Opublikowany

Sleep-time compute to paradygmat, w którym LLM „myśli" offline o dostępnym kontekście, zanim pojawi się zapytanie — by ograniczyć latencję i koszt inferencji w czasie rzeczywistym.

Kluczowa innowacja

Przeniesienie części rozumowania LLM z czasu zapytania (test-time) na okres bezczynności (sleep-time), aby pre-kompilować użyteczne wnioski o kontekście jeszcze zanim użytkownik zada pytanie.

Kategoria

Wnioskowanie

Poziom abstrakcji

Wzorzec

Poziom operacji

InferencjaSystemŚrodowisko agentowe

Zastosowania

Agenci LLM z trwałą pamięciąDługo-żyjący asystenci (chat persistent context)Agentowe zadania programistyczne (SWE)Pre-kompilacja wniosków z dokumentów (RAG offline)Stateful reasoning benchmarksOptymalizacja kosztu i latencji inferencji

Jak działa

1) System otrzymuje kontekst (dokument, historię agenta, stan zadania) bez aktywnego zapytania. 2) W okresie bezczynności LLM wykonuje rozumowanie ukierunkowane na ten kontekst — przewiduje prawdopodobne pytania, wyciąga wnioski, streszcza, planuje. 3) Wyniki są zapisywane jako wzbogacony kontekst lub trwała pamięć agenta. 4) Gdy pojawia się realne zapytanie użytkownika, model korzysta z prekompilowanych artefaktów, dzięki czemu test-time compute potrzebne do udzielenia trafnej odpowiedzi jest znacząco mniejsze. 5) W scenariuszach z wieloma pytaniami do tego samego kontekstu (Multi-Query) koszt sleep-time amortyzuje się na wszystkie zapytania.

Rozwiązany problem

Test-time scaling (długie łańcuchy rozumowania w momencie zapytania) drastycznie zwiększa latencję i koszt inferencji LLM. Sleep-time compute rozwiązuje ten problem, przenosząc część rozumowania w okres bezczynności, zanim użytkownik zada pytanie.

Implementacja

Implementacje referencyjne

letta-ai/sleep-time-compute

Python · Letta AI

Oficjalna

Pułapki implementacyjne

Niska przewidywalność zapytańWysoka

Skuteczność sleep-time compute silnie koreluje z przewidywalnością przyszłych zapytań. Gdy pytania użytkownika są mocno otwarte i nieoczekiwane, prekompilowane wnioski są nieprzydatne, a obliczenia w sleep-time są zmarnowane.

Rozwiązanie:Stosować w kontekstach o silnym priorze pytań (agenci z trwałą pamięcią, długie dokumenty, powtarzalne zadania). Profilować rozkład zapytań przed inwestycją w pre-compute.

Nieaktualny pre-computed contextŚrednia

Jeśli kontekst zmienia się szybciej niż częstotliwość sleep-time, prekompilowane wnioski mogą być nieaktualne i wprowadzać błędy do odpowiedzi.

Rozwiązanie:Monitorować zmiany kontekstu i unieważniać/odświeżać pre-computed artefakty. Ograniczać sleep-time pre-compute do stabilnych fragmentów kontekstu.

Ewolucja

Oryginalny paper · 2025 · arXiv preprint (UC Berkeley / Letta) · Kevin Lin

Sleep-time Compute: Beyond Inference Scaling at Test-time

Kevin Lin, Charlie Snell, Yu Wang, Charles Packer, Sarah Wooders, Ion Stoica, Joseph E. Gonzalez

2025

Wprowadzenie paradygmatu Sleep-time Compute

Punkt przełomowy

Lin et al. publikują pracę arXiv:2504.13171 i kod referencyjny letta-ai/sleep-time-compute, definiując sleep-time compute jako alternatywę dla test-time scaling.

Sleep-time Compute: Beyond Inference Scaling at Test-time (artykuł)

Źródła

Sleep-time Compute: Beyond Inference Scaling at Test-time

Paper

arXiv

letta-ai/sleep-time-compute (GitHub)

Repozytorium

Letta AI