TTS realizuje się na wiele sposobów, które można pogrupować w trzy główne osie. Pierwsza to skalowanie równoległe: model generuje N niezależnych prób (sampli) i wybiera najlepszą — przez majority voting (self-consistency), best-of-N z verifierem, albo re-ranking funkcją oceniającą. Druga to skalowanie sekwencyjne: model generuje długi, jawny lub ukryty chain-of-thought, krytykuje własne rozwiązania i je iteracyjnie poprawia (self-refinement, revisions). Trzecia to skalowanie wyszukiwania: nad drzewem częściowych rozwiązań prowadzi się beam search lub MCTS, sterowany przez Process Reward Model (PRM), który ocenia poprawność każdego kroku rozumowania. Snell i in. (2024) pokazali, że optymalna strategia "compute-optimal" alokuje budżet adaptacyjnie zależnie od trudności promptu. Modele takie jak OpenAI o1/o3 i DeepSeek R1 internalizują ten paradygmat: zamiast jawnej zewnętrznej procedury wyszukiwania, są trenowane RL-em do generowania bardzo długich łańcuchów rozumowania w trakcie odpowiadania.
Klasyczne prawa skalowania (Kaplan, Chinchilla) zakładały, że jakość modelu rośnie głównie wraz ze wzrostem liczby parametrów i danych treningowych. Takie skalowanie jest jednak coraz droższe i ma malejące zwroty. Test-time scaling odpowiada na pytanie, jak istotnie zwiększać jakość odpowiedzi modelu po zakończeniu treningu, alokując więcej obliczeń tylko na trudne prompty zamiast trenować większy model.
Process Reward Models bywają eksploitowane przez polityki generujące teksty, które wyglądają na poprawne wg PRM, ale w rzeczywistości nie prowadzą do prawidłowego wyniku.
Krzywe zysku z best-of-N i z długości chain-of-thought spłaszczają się; bez compute-optimal allocation łatwo przepalić budżet bez zysku jakości.
TTS przesuwa koszt z treningu na każdą pojedynczą inferencję, co czyni go nieoptymalnym dla zastosowań wymagających niskiej latencji lub wysokiego throughputu.
Wykazanie, że jawne kroki rozumowania w prompcie znacząco poprawiają wyniki na zadaniach matematycznych i logicznych — wczesna forma sekwencyjnego skalowania obliczeń w czasie testu.
Próbkowanie wielu łańcuchów rozumowania i głosowanie większościowe na finalnej odpowiedzi — kanoniczna realizacja równoległego test-time scaling.
Trening weryfikatorów oceniających poprawność każdego kroku rozumowania, kluczowy budulec wyszukiwania w czasie testu.
Sformułowanie test-time scaling jako osobnego prawa skalowania; pokazanie, że adaptacyjna alokacja obliczeń może przewyższyć model 14× większy przy równym budżecie FLOP-ów.
Premiera modelu o1, którego wydajność rośnie zarówno z budżetem treningu RL, jak i z czasem "myślenia" w teście. Wprowadzenie test-time scaling do produktów konsumenckich.
Pierwszy szeroko dostępny otwarty model rozumujący z długim chain-of-thought trenowanym przez RL, replikujący efekt o1 w open-weights.
Liczba niezależnych prób generowanych w strategiach best-of-N / self-consistency. Większe N = lepsza jakość, liniowo rosnący koszt.
Liczba tokenów przeznaczona na wewnętrzny chain-of-thought przed ostateczną odpowiedzią. Główny dial w modelach typu o1/o3 ("thinking time").
Jakość Process Reward Model lub Outcome Reward Model używanego do oceny kandydatów lub kroków rozumowania.
Liczba aktywnych gałęzi przy wyszukiwaniu nad drzewem rozumowania (beam search, MCTS).
Budżet obliczeniowy w czasie testu jest alokowany zależnie od trudności promptu (compute-optimal scaling).
Strategie best-of-N i self-consistency są w pełni równoległe między sampli; beam search nad krokami rozumowania jest sekwencyjny w obrębie jednej trajektorii, ale można równolegle eksplorować wiele gałęzi.
TTS jest dominowany przez decoding LLM-ów, który wymaga szybkich GPU z dużą przepustowością pamięci i tensor cores.
TPU dobrze obsługują batch decoding wielu sampli równolegle, co odpowiada strategiom best-of-N.