Wnioskowanie

TTS

2024AktywnyOpublikowano: 30 maja 2026Aktualizacja: 30 maja 2026Opublikowany

Paradygmat zwiększania jakości odpowiedzi modelu językowego przez przeznaczenie większych zasobów obliczeniowych na sam moment generowania, m.in. przez próbkowanie wielu hipotez, weryfikatory i wyszukiwanie nad łańcuchami rozumowania.

Kluczowa innowacja

Zwiększanie ilości obliczeń wykonywanych w momencie inferencji (a nie podczas pretreningu) jako alternatywna oś skalowania jakości wyników modeli językowych.

Kategoria

Wnioskowanie

Poziom abstrakcji

Paradygmat

Poziom operacji

Inferencja

Zastosowania

Rozumowanie matematyczne (AIME, MATH, GSM8K)Programowanie zawodnicze (Codeforces, IOI)Pytania naukowe na poziomie PhD (GPQA Diamond)Dowodzenie twierdzeń i formalne rozumowanieZłożone zadania wieloetapowe i agentoweKrytyczne zadania, w których jakość przewyższa koszt latencji

Jak działa

TTS realizuje się na wiele sposobów, które można pogrupować w trzy główne osie. Pierwsza to skalowanie równoległe: model generuje N niezależnych prób (sampli) i wybiera najlepszą — przez majority voting (self-consistency), best-of-N z verifierem, albo re-ranking funkcją oceniającą. Druga to skalowanie sekwencyjne: model generuje długi, jawny lub ukryty chain-of-thought, krytykuje własne rozwiązania i je iteracyjnie poprawia (self-refinement, revisions). Trzecia to skalowanie wyszukiwania: nad drzewem częściowych rozwiązań prowadzi się beam search lub MCTS, sterowany przez Process Reward Model (PRM), który ocenia poprawność każdego kroku rozumowania. Snell i in. (2024) pokazali, że optymalna strategia "compute-optimal" alokuje budżet adaptacyjnie zależnie od trudności promptu. Modele takie jak OpenAI o1/o3 i DeepSeek R1 internalizują ten paradygmat: zamiast jawnej zewnętrznej procedury wyszukiwania, są trenowane RL-em do generowania bardzo długich łańcuchów rozumowania w trakcie odpowiadania.

Rozwiązany problem

Klasyczne prawa skalowania (Kaplan, Chinchilla) zakładały, że jakość modelu rośnie głównie wraz ze wzrostem liczby parametrów i danych treningowych. Takie skalowanie jest jednak coraz droższe i ma malejące zwroty. Test-time scaling odpowiada na pytanie, jak istotnie zwiększać jakość odpowiedzi modelu po zakończeniu treningu, alokując więcej obliczeń tylko na trudne prompty zamiast trenować większy model.

Implementacja

Pułapki implementacyjne

Reward hacking w PRMWysoka

Process Reward Models bywają eksploitowane przez polityki generujące teksty, które wyglądają na poprawne wg PRM, ale w rzeczywistości nie prowadzą do prawidłowego wyniku.

Rozwiązanie:Łączenie PRM-ów z weryfikatorami wyniku (ORM), regularyzacja KL, ewaluacja na trudnych held-outach.

Diminishing returns powyżej pewnego N / długości CoTŚrednia

Krzywe zysku z best-of-N i z długości chain-of-thought spłaszczają się; bez compute-optimal allocation łatwo przepalić budżet bez zysku jakości.

Rozwiązanie:Adaptacyjna alokacja zależna od trudności promptu, wczesne zatrzymanie po osiągnięciu pewności weryfikatora.

Wysoka latencja i koszt inferencjiŚrednia

TTS przesuwa koszt z treningu na każdą pojedynczą inferencję, co czyni go nieoptymalnym dla zastosowań wymagających niskiej latencji lub wysokiego throughputu.

Rozwiązanie:Routing łatwych zapytań do tańszego modelu, użycie TTS tylko dla trudnych promptów (cascade / mixture-of-deciders).

Ewolucja

Oryginalny paper · 2024 · arXiv:2408.03314 (2024) · Charlie Snell

Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters

Charlie Snell, Jaehoon Lee, Kelvin Xu, Aviral Kumar

2022

Chain-of-Thought prompting (Wei et al.)

Wykazanie, że jawne kroki rozumowania w prompcie znacząco poprawiają wyniki na zadaniach matematycznych i logicznych — wczesna forma sekwencyjnego skalowania obliczeń w czasie testu.

Chain-of-Thought Prompting Elicits Reasoning in Large Language Models (artykuł)

2022

Self-Consistency (Wang et al.)

Próbkowanie wielu łańcuchów rozumowania i głosowanie większościowe na finalnej odpowiedzi — kanoniczna realizacja równoległego test-time scaling.

Self-Consistency Improves Chain of Thought Reasoning in Language Models (artykuł)

2023

Process Reward Models (Lightman et al., "Let's Verify Step by Step")

Trening weryfikatorów oceniających poprawność każdego kroku rozumowania, kluczowy budulec wyszukiwania w czasie testu.

Let's Verify Step by Step (artykuł)

2024

Snell et al. — compute-optimal test-time scaling

Punkt przełomowy

Sformułowanie test-time scaling jako osobnego prawa skalowania; pokazanie, że adaptacyjna alokacja obliczeń może przewyższyć model 14× większy przy równym budżecie FLOP-ów.

Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters (artykuł)

2024

OpenAI o1 — internalised long-chain reasoning

Punkt przełomowy

Premiera modelu o1, którego wydajność rośnie zarówno z budżetem treningu RL, jak i z czasem "myślenia" w teście. Wprowadzenie test-time scaling do produktów konsumenckich.

Learning to reason with LLMs (artykuł)

2025

DeepSeek R1 — open-weights reasoning via RL

Pierwszy szeroko dostępny otwarty model rozumujący z długim chain-of-thought trenowanym przez RL, replikujący efekt o1 w open-weights.

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning (artykuł)