1) System otrzymuje kontekst (dokument, historię agenta, stan zadania) bez aktywnego zapytania. 2) W okresie bezczynności LLM wykonuje rozumowanie ukierunkowane na ten kontekst — przewiduje prawdopodobne pytania, wyciąga wnioski, streszcza, planuje. 3) Wyniki są zapisywane jako wzbogacony kontekst lub trwała pamięć agenta. 4) Gdy pojawia się realne zapytanie użytkownika, model korzysta z prekompilowanych artefaktów, dzięki czemu test-time compute potrzebne do udzielenia trafnej odpowiedzi jest znacząco mniejsze. 5) W scenariuszach z wieloma pytaniami do tego samego kontekstu (Multi-Query) koszt sleep-time amortyzuje się na wszystkie zapytania.
Test-time scaling (długie łańcuchy rozumowania w momencie zapytania) drastycznie zwiększa latencję i koszt inferencji LLM. Sleep-time compute rozwiązuje ten problem, przenosząc część rozumowania w okres bezczynności, zanim użytkownik zada pytanie.
Skuteczność sleep-time compute silnie koreluje z przewidywalnością przyszłych zapytań. Gdy pytania użytkownika są mocno otwarte i nieoczekiwane, prekompilowane wnioski są nieprzydatne, a obliczenia w sleep-time są zmarnowane.
Jeśli kontekst zmienia się szybciej niż częstotliwość sleep-time, prekompilowane wnioski mogą być nieaktualne i wprowadzać błędy do odpowiedzi.
Lin et al. publikują pracę arXiv:2504.13171 i kod referencyjny letta-ai/sleep-time-compute, definiując sleep-time compute jako alternatywę dla test-time scaling.