AutoTTS: automatyczne strategie wnioskowania LLM – redukcja tokenów o 69,5%

Badacze z Meta, Google i kilku uczelni opublikowali AutoTTS – framework, który automatycznie odkrywa optymalne strategie test-time scaling dla modeli językowych. W testach na modelach Qwen3 i DeepSeek AutoTTS zredukował zużycie tokenów o 69,5% przy zachowaniu tej samej dokładności, a cały proces odkrywania strategii kosztował 39,90 dolarów i trwał 160 minut.

Najważniejsze w skrócie

AutoTTS redukuje zużycie tokenów o 69,5% vs Self-Consistency z 64 ścieżkami rozumowania
Odkrywanie optymalnej strategii kosztuje 39,90 USD i trwa 160 minut
Na benchmarku GPQA-Diamond: 510K tokenów → 151K tokenów przy nieznacznej poprawie dokładności
Framework działa na modelach Qwen3 (0.6B–8B) i DeepSeek-R1 (8B distill)
Kod i kontroler Confidence Momentum Controller dostępne na GitHub

Problem: ręczne strojenie strategii wnioskowania

Test-time scaling (TTS) to podejście, które poprawia jakość modeli językowych przez przydzielenie im dodatkowej mocy obliczeniowej podczas inference (etapu generowania odpowiedzi przez wytrenowany już model, w odróżnieniu od trenowania). Zamiast generować odpowiedź w jednym przebiegu, model może eksplorować wiele ścieżek rozumowania, oceniać pośrednie kroki i wybierać najlepszy wynik końcowy. To główna siła stojąca za modelami rozumującymi, takimi jak OpenAI o3 czy LLM-y z Chain-of-Thought, i pozwala małym modelom dorównywać dużo większym odpowiednikom na trudnych zadaniach matematycznych i logicznych.

Problem polega na tym, że dotychczas wszystkie strategie TTS były projektowane ręcznie. Inżynier musiał intuicyjnie ustalić, kiedy model powinien rozgałęzić swoje rozumowanie na nowe ścieżki, kiedy pogłębić bieżącą, kiedy przyciąć nieobiecujące gałęzie, a kiedy zatrzymać obliczenia. Szerokość (liczba równoległych ścieżek) i głębokość (jak daleko każda się rozwija) były parametrami strojonymi przez człowieka – co oznaczało, że ogromna przestrzeń potencjalnych podejść pozostawała niezbadana.

Istniejące algorytmy jak Self-Consistency (SC), Adaptive-Consistency (ASC) czy Parallel-Probe są poprawne, ale ograniczone przez pryzmat ludzkich intuicji. AutoTTS atakuje tę ograniczoność bezpośrednio.

AutoTTS: wyszukiwanie strategii jako problem algorytmiczny

Zamiast prosić inżyniera o zaprojektowanie strategii, AutoTTS przeformułowuje to zadanie jako przeszukiwanie przestrzeni przez agenta AI. Rolą człowieka staje się zdefiniowanie środowiska odkrywania: przestrzeń stanów i akcji, cel optymalizacji (równowaga między dokładnością a kosztem) oraz mechanizm informacji zwrotnej. Dalej robi autonomiczny agent – model językowy pełniący funkcję „eksploratora", który iteracyjnie proponuje, testuje i ulepsza strategie zarządzania obliczeniami.

Kluczem do opłacalności jest środowisko offline. Zamiast uruchamiać model bazowy za każdym razem, gdy agent testuje nową strategię, AutoTTS pracuje na tysiącach ścieżek rozumowania zebranych wcześniej offline. Każda ścieżka zawiera tzw. sygnały sondujące – pośrednie odpowiedzi, które pozwalają ocenić postęp rozumowania bez generowania nowych tokenów. Dzięki temu cały cykl odkrywania jest tani: 39,90 USD za pełny przebieg.

Kontroler, którego człowiek by nie wymyślił

Najciekawszym rezultatem AutoTTS nie jest wynik benchmark, lecz natura odkrytej strategii. Agent zaproponował kontroler nazwany Confidence Momentum Controller (CMC), który łączy trzy mechanizmy, rzadko spotykane razem w ręcznie projektowanych algorytmach.

Po pierwsze: zatrzymywanie po trendzie, nie po jednym odczycie. Model w trakcie rozumowania ocenia, na ile sam jest pewien swojej odpowiedzi (tzw. konfidencja). Ręcznie projektowane strategie zatrzymywały go, gdy ta pewność jednorazowo przekroczyła próg – trochę jak wypisanie pacjenta po pojedynczym dobrym pomiarze temperatury. Problem w tym, że konfidencja potrafi chwilowo skoczyć bez realnego powodu, więc model kończył przedwcześnie ze złą odpowiedzią. CMC zamiast patrzeć na pojedynczy odczyt, śledzi średnią z ostatnich kroków (formalnie: wykładniczą średnią ruchomą, EMA) i zatrzymuje model dopiero, gdy ta średnia jest wysoka i utrzymuje się stabilnie.

Po drugie: szerokość i głębokość regulowane razem, nie osobno. Model rozumując ma do dyspozycji dwie dźwignie: może eksplorować w bok (testować wiele różnych podejść równolegle – to "szerokość") albo drążyć w głąb jedno podejście (to "głębokość"). Tradycyjne algorytmy ustalały oba parametry niezależnie i z góry, przed startem rozumowania. CMC działa dynamicznie: gdy widzi, że obecne ścieżki utykają – ich konfidencja stoi w miejscu lub spada – sam dorzuca nowe gałęzie, bez czekania na zewnętrzny sygnał. To trochę jak burza mózgów, w której facylitator dokłada nowe pomysły dokładnie wtedy, gdy obecne grzęzną.

Po trzecie: dodatkowe obliczenia tam, gdzie tworzy się konsensus. Gdy kilka równoległych ścieżek rozumowania zaczyna zbiegać się do tej samej odpowiedzi, CMC nie rozdziela już zasobów po równo. Identyfikuje gałęzie popierające wyłaniający się konsensus i daje im priorytetowy dostęp do dodatkowych obliczeń. Reszta gałęzi pracuje dalej w tle, ale to konsensus jest weryfikowany jako pierwszy. To jak moderator dyskusji, który zauważa, że czterech z dziesięciu uczestników niezależnie dochodzi do tego samego wniosku, i daje właśnie im więcej czasu na szczegółowe uzasadnienie.

Wyniki: mniej tokenów, ta sama lub wyższa dokładność

Eksperymenty przeprowadzono na modelach Qwen3 (0.6B–8B, Alibaba) oraz na 8B destylacji DeepSeek-R1. Strategię odkryto na benchmarku AIME24 i testowano na AIME25, HMMT25 i GPQA-Diamond.

W trybie cost-conscious AutoTTS zredukował zużycie tokenów o 69,5% w porównaniu do SC@64 przy zachowaniu tej samej średniej dokładności na czterech modelach Qwen3. Gdy zwiększono budżet obliczeniowy, AutoTTS poprawił szczytową dokładność ponad wszystkie ręcznie projektowane bazy w pięciu z ośmiu przypadków testowych. Na GPQA-Diamond zużycie tokenów spadło z 510K do 151K przy jednoczesnej nieznacznej poprawie dokładności. Na modelu DeepSeek AutoTTS osiągnął najwyższą ogólną dokładność na HMMT25 przy jednoczesnym obcięciu wydatków na tokeny niemal o połowę.

Dlaczego to ważne?

Koszty inference to jedno z głównych wąskich gardeł przy wdrożeniach modeli rozumujących w produkcji. Każda odpowiedź wymagająca kilkudziesięciu tysięcy tokenów ma bezpośredni wpływ na marże usług AI. AutoTTS pokazuje, że optymalizacja tych kosztów nie musi być ręcznym, czasochłonnym procesem – może być zautomatyzowana za kilkadziesiąt dolarów.

Równie ważna jest zmiana roli inżyniera: zamiast projektować szczegółowe heurystyki, definiuje on środowisko i kryteria sukcesu, a agent robi resztę. To podejście może przenieść się na inne obszary optymalizacji ML, gdzie przestrzeń możliwości jest zbyt duża do ręcznego eksplorowania.

Demokratyzacyjny aspekt jest też istotny: małe zespoły bez dedykowanego budżetu badawczego mogą teraz tworzyć strategie inference dopasowane do własnych modeli i zadań w czasie jednego popołudnia. Bariera wejścia dla zaawansowanej optymalizacji TTS właśnie drastycznie spadła.

Co dalej?

AutoTTS framework i CMC są dostępne na GitHub jako open source – implementacje produkcyjne mogą pojawić się w ciągu tygodni.
Badacze wskazują na możliwość rozszerzenia AutoTTS na strategie wielomodelowe i zadania spoza matematyki (np. kodowanie, rozumowanie prawnicze).
Firmy wdrażające modele rozumujące mogą zacząć testować AutoTTS na własnych modelach i benchmarkach wewnętrznych już teraz – framework nie wymaga zmiany modelu bazowego.

Źródła

VentureBeat — Researchers automated LLM reasoning strategy design and cut token usage by 69.5%
arXiv — AutoTTS: Automated Test-Time Scaling for Large Language Models
GitHub — AutoTTS repository (zhengkid/AutoTTS)

AutoTTS redukuje zużycie tokenów LLM o 69,5%