Wnioskowanie

CMC (Confidence Momentum Controller)

2026Opublikowano: 30 maja 2026

CMC to training-free kontroler test-time scaling odkryty automatycznie przez framework AutoTTS. Steruje równoległym rozumowaniem LLM łącząc bramkę zatrzymania na momencie EMA pewności, sprzężoną kontrolę szerokość-głębokość, alokację probowania świadomą wyrównania ze zwycięzcą puli oraz konserwatywne porzucanie odbiegających gałęzi.

Kluczowa innowacja

Bramka zatrzymania oparta na momentum: zamiast progu na chwilowej (instantaneous) ufności większościowej algorytm utrzymuje EMA pewności puli odpowiedzi i zatrzymuje generację tylko gdy poziom EMA jest wysoki ORAZ trend (delta EMA) jest niemalejący — co eliminuje fałszywe wczesne zatrzymania na pojedynczych skokach pewności. Sprzęga też decyzje o szerokości i głębokości rozumowania przez ten sam sygnał trendu.

Kategoria

Wnioskowanie

Poziom abstrakcji

Wzorzec

Poziom operacji

Inferencja

Zastosowania

Math competition reasoning at fixed token budgets (AIME, HMMT, MATH).Cost-aware deployment of parallel-thinking pipelines for reasoning models (Qwen3 family).Replay-based benchmarking of TTS controllers without spending fresh LLM calls.Baseline controller for further automated TTS controller search (seed for AutoTTS rounds).

Jak działa

Inferencja przebiega rundami z zewnętrznym limitem _MAX_OUTER. Faza 0: kontroler otwiera n_init równoległych gałęzi rozumowania. W każdej rundzie: (1) liczy statystyki puli ukończonych odpowiedzi (winner, top1, top2, ufność większościowa Beta), (2) aktualizuje EMA pewności puli z parametrem ema_alpha, (3) klasyfikuje aktywne gałęzie na aligned/deviant/neutral po przekroczeniu warm_up, zwiększając disagree_rounds dla deviant, (4) porzuca gałęzie utrzymujące deviant ≥ abandon_patience rund — zostawiając minimum 2 aktywne, (5) alokuje probe_budget na gałęzie posortowane malejąco po probe_count (najwięcej zainwestowane idą pierwsze), z mnożnikiem burst_aligned dla gałęzi aligned, (6) ponownie aktualizuje EMA, (7) oblicza ema_delta = ema_history[-1] − ema_history[0] na oknie T_ema, (8) ewaluuje bramkę: gate_fires := warm_enough ∧ n_complete ≥ min_complete ∧ ema_conf ≥ conf_thresh ∧ ema_delta ≥ −delta_slack — gdy spełniona, zwraca pool_winner, (9) jeżeli nie zatrzymano, sprawdza widening: gdy ema_delta ≤ trend_thresh (trend płaski/ujemny) i ema_conf < conf_thresh, spawnuje widen_burst nowych gałęzi do limitu max_branch_use. Pętla kończy się gdy bramka odpali, gdy wszystkie gałęzie są resolved albo gdy outer_step osiągnie _MAX_OUTER (wówczas zwraca większość ostatnich latest_ans).

Rozwiązany problem

Wcześniejsze adaptacyjne kontrolery TTS (ASC, ESC, Parallel-Probe oraz wczesne propozycje IBC/SCR/DGCC) bazują na chwilowej ufności puli odpowiedzi: szczęśliwe wczesne skupisko identycznych odpowiedzi może uruchomić bramkę zatrzymania zanim rozkład odpowiedzi się ustabilizuje, prowadząc do przedwczesnego stop. Dodatkowo decyzje o szerokości (ile gałęzi spawnować) i głębokości (ile probować) są w nich rozłączne, więc zachowanie z budżetem nie reaguje na rzeczywisty postęp dowodu pewności. CMC adresuje oba problemy: bramka momentum wymaga jednoczesnego wysokiego poziomu i niemalejącego trendu EMA, a widening jest sprzężone z tym samym sygnałem trendu.

Kluczowe mechanizmy

EMA-momentum stopping gate — wymaga jednoczesnego wysokiego poziomu EMA pewności i niemalejącego trendu (anty-spike).

Coupled width–depth control — decyzja o widening sterowana tym samym sygnałem trendu EMA co bramka zatrzymania.

Alignment-aware depth allocation — gałęzie zgodne ze zwycięzcą puli dostają mnożnik burst_aligned probowania.

Probe-age priority scheduling — alokacja kolejnego probe_budget przez kolejkę priorytetową sortowaną malejąco po probe_count.

Three-tier branch classification — aligned / neutral / deviant, z licznikiem disagree_rounds.

Conservative branch abandonment — porzucenie tylko po abandon_patience rundach niezgodności i zawsze ≥ 2 aktywne.

Single-knob β scheduling — wszystkie hiperparametry to monotoniczne funkcje skalara β ∈ [0, 1].

Mocne strony i ograniczenia

Mocne strony

✓~69,5 % oszczędności tokenów względem Self-Consistency K=64 przy β≈0,5 — przy zachowanej średniej dokładności na held-out (AIME25, HMMT25).

✓Pareto-dominacja wszystkich ręcznie projektowanych baselineów (SC, ASC, ESC, Parallel-Probe) na większości konfiguracji.

✓Pojedynczy, interpretowalny knob β — operator dostraja kompromis cost/quality bez znajomości kilkunastu progów.

✓Training-free i model-agnostic — działa nad istniejącymi modelami rozumującymi (Qwen3 wszystkie skale).

✓Anty-spike: bramka momentum nie odpala na pojedynczym losowym skupisku odpowiedzi.

✓Procedurze odkrywania (AutoTTS) odpowiadał koszt 39,9 USD i 160 minut zegarowych — niska bariera wejścia do automatycznego designu kontrolerów.

Ograniczenia

✗Dyskrybowany agresywnie do task family rozumowania matematycznego (AIME / HMMT, Qwen3) — generalizacja na zadania commonsense / code wymaga osobnej walidacji.

✗Bramka EMA wprowadza opóźnienie zatrzymania względem chwilowej ufności — dla bardzo łatwych instancji może być nieco wolniejsza niż ASC.

✗Wymaga środowiska replay z zarchiwizowanymi traces żeby odtworzyć / re-discoverować kontroler (ekosystem AutoTTS).

✗Mnożnik burst_aligned faworyzuje bieżącego zwycięzcę puli — w zadaniach gdzie poprawna odpowiedź wymaga rzadszej, niealignowanej trajektorii, taka faworyzacja może obniżyć recall poprawnej odpowiedzi.

✗Liczne hiperparametry (n_init, max_branch_use, warm_up, abandon_patience, T_ema, ema_alpha, conf_thresh, delta_slack, burst_aligned, widen_burst, trend_thresh, min_complete) ukryte za β — domyślne mapowanie monotoniczne wymaga ponownej kalibracji dla nowej rodziny zadań.

Implementacja

Implementacje referencyjne

zhengkid/AutoTTS — OptimalController (CMC)

Python · Tong Zheng et al.

Oficjalna

AutoTTS — project page

Authors

Oficjalna

Pułapki implementacyjne

Zbyt agresywne ema_alpha (mała inercja)Wysoka

Wysokie alpha (≈0.7) sprawia, że EMA degeneruje się prawie do chwilowej ufności i tracimy efekt anty-spike — bramka może odpalić na pojedynczym losowym skupisku odpowiedzi.

Rozwiązanie:Trzymaj się harmonogramu CMC: ema_alpha = 0.70 − 0.40·β. Dla zadań z dużym wczesnym szumem zwiększ β.

Brak preserwacji minimum 2 aktywnych gałęziWysoka

Naiwny porting porzucania gałęzi może odciąć wszystkie poza jedną — kontroler traci wówczas pulę odpowiedzi do wyznaczenia winnera i wpada w degenerat single-path.

Rozwiązanie:Zachowaj invariant max_abandon = max(0, n_alive − 2) zgodnie z OptimalController.

Sprzężenie z innym backbone bez rekalibracji βŚrednia

Harmonogram β został odkryty na Qwen3 + AIME24. Inne modele lub rodziny zadań mogą wymagać przesunięcia conf_thresh / ema_alpha, by uniknąć regresji.

Rozwiązanie:Przebuduj replay store dla nowego backbone i puść ponownie pętlę odkrywania AutoTTS, albo skalibruj β na własnym hold-out.

Ewolucja

Oryginalny paper · 2026 · arXiv preprint · Tong Zheng

LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling

Tong Zheng, Haolin Liu, Chengsong Huang, Huiwen Bao, Sheng Zhang, Rui Liu, Runpeng Dai, Ruibo Chen, Chenxi Liu, Tianyi Xiong, Xidong Wu, Hongming Zhang, Heng Huang

2022

Self-Consistency — fundament głosowania większościowego

Wang et al. wprowadzają samplowanie wielu ścieżek CoT i głosowanie większościowe — bazowy benchmark, który CMC ostatecznie pokonuje na froncie Pareto.

Self-Consistency (koncept)

2023

Adaptive-Consistency (ASC) — adaptacyjny stopping per-instancja

Aggarwal et al. wprowadzają chwilowe Beta-majority confidence z progiem zatrzymania — pierwsza adaptacyjna baseline, którą CMC zastępuje bramką typu momentum.

Adaptive-Consistency (koncept)

2026

Parallel-Probe — 2D probowanie szerokości i głębokości

Zheng et al. wprowadzają jawną oś szerokości i głębokości oraz consensus-based pruning — bezpośredni przodek strukturalny CMC.

Parallel-Probe (koncept)

2026

Publikacja AutoTTS i wyłonienie CMC (arXiv 2605.08083)

Punkt przełomowy

Coding agent w środowisku replay iteracyjnie odkrywa CMC: pierwszy kontroler TTS z bramką momentum EMA i sprzężoną kontrolą szerokość-głębokość, ustanawiający nowy front Pareto na AIME25/HMMT25.

Źródła

LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling

Paper

arXiv

zhengkid/AutoTTS — official repository (CMC source code)

code

GitHub

AutoTTS — project page

Strona

Authors

Hiperparametry (konfigurowalne osie)

β (single knob)Wysoka

Skalar w [0, 1] sterujący wszystkimi hiperparametrami CMC monotonicznie: 0 = tryb oszczędny, 1 = tryb dokładności.

0.5Punkt operacyjny ~69,5 % oszczędności tokenów względem SC@64 przy zachowanej dokładności.

1.0Punkt operacyjny accuracy-first — przekracza wszystkie ręcznie projektowane baseline-y na większości configów.

Liczba początkowych gałęziŚrednia

Liczba gałęzi rozumowania spawnowanych w fazie 0; rośnie z β (round(2 + 6·β)).

Maksymalna liczba gałęziWysoka

Twardy górny limit łącznej liczby spawnowanych gałęzi; rośnie z β (round(4 + 60·β), do 64).

EMA alpha (inercja)Wysoka

Współczynnik EMA pewności puli; maleje z β (0.70 − 0.40·β) — wyższe β oznacza większą inercję.

Próg ufności bramkiWysoka

Próg poziomu EMA wymagany do zatrzymania; rośnie z β (0.85 + 0.12·β).

Slack trendu bramkiŚrednia

Tolerowane ujemne nachylenie EMA przy zatrzymaniu; maleje z β (0.04 − 0.03·β).

Mnożnik probowania (aligned)Średnia

Liczba kroków probe na rundę dla gałęzi aligned; rośnie z β (max(1, round(1 + 2·β))).

Liczba spawnów na wideningŚrednia

Ile nowych gałęzi spawnować gdy trend EMA jest słaby; rośnie z β (max(1, round(1 + 3·β))).

Próg trendu wideninguŚrednia

Próg ema_delta poniżej którego widening jest uruchamiane; maleje z β (0.04 − 0.03·β).

Cierpliwość porzucaniaŚrednia

Liczba rund deviant zanim gałąź jest porzucona; rośnie z β (max(3, round(3 + 9·β))).

Warm-up rundNiska

Liczba rund przed ewaluacją bramki i klasyfikacją gałęzi; rośnie z β (max(2, round(2 + 8·β))).

Okno EMANiska

Długość okna do obliczenia ema_delta; rośnie z β (max(2, round(2 + 6·β))).

Min ukończonych przed bramkąNiska

Minimalna liczba ukończonych odpowiedzi w puli zanim bramka może odpalić; rośnie z β (max(2, round(2 + 3·β))).