Inferencja przebiega rundami z zewnętrznym limitem _MAX_OUTER. Faza 0: kontroler otwiera n_init równoległych gałęzi rozumowania. W każdej rundzie: (1) liczy statystyki puli ukończonych odpowiedzi (winner, top1, top2, ufność większościowa Beta), (2) aktualizuje EMA pewności puli z parametrem ema_alpha, (3) klasyfikuje aktywne gałęzie na aligned/deviant/neutral po przekroczeniu warm_up, zwiększając disagree_rounds dla deviant, (4) porzuca gałęzie utrzymujące deviant ≥ abandon_patience rund — zostawiając minimum 2 aktywne, (5) alokuje probe_budget na gałęzie posortowane malejąco po probe_count (najwięcej zainwestowane idą pierwsze), z mnożnikiem burst_aligned dla gałęzi aligned, (6) ponownie aktualizuje EMA, (7) oblicza ema_delta = ema_history[-1] − ema_history[0] na oknie T_ema, (8) ewaluuje bramkę: gate_fires := warm_enough ∧ n_complete ≥ min_complete ∧ ema_conf ≥ conf_thresh ∧ ema_delta ≥ −delta_slack — gdy spełniona, zwraca pool_winner, (9) jeżeli nie zatrzymano, sprawdza widening: gdy ema_delta ≤ trend_thresh (trend płaski/ujemny) i ema_conf < conf_thresh, spawnuje widen_burst nowych gałęzi do limitu max_branch_use. Pętla kończy się gdy bramka odpali, gdy wszystkie gałęzie są resolved albo gdy outer_step osiągnie _MAX_OUTER (wówczas zwraca większość ostatnich latest_ans).
Wcześniejsze adaptacyjne kontrolery TTS (ASC, ESC, Parallel-Probe oraz wczesne propozycje IBC/SCR/DGCC) bazują na chwilowej ufności puli odpowiedzi: szczęśliwe wczesne skupisko identycznych odpowiedzi może uruchomić bramkę zatrzymania zanim rozkład odpowiedzi się ustabilizuje, prowadząc do przedwczesnego stop. Dodatkowo decyzje o szerokości (ile gałęzi spawnować) i głębokości (ile probować) są w nich rozłączne, więc zachowanie z budżetem nie reaguje na rzeczywisty postęp dowodu pewności. CMC adresuje oba problemy: bramka momentum wymaga jednoczesnego wysokiego poziomu i niemalejącego trendu EMA, a widening jest sprzężone z tym samym sygnałem trendu.
Wysokie alpha (≈0.7) sprawia, że EMA degeneruje się prawie do chwilowej ufności i tracimy efekt anty-spike — bramka może odpalić na pojedynczym losowym skupisku odpowiedzi.
Naiwny porting porzucania gałęzi może odciąć wszystkie poza jedną — kontroler traci wówczas pulę odpowiedzi do wyznaczenia winnera i wpada w degenerat single-path.
Harmonogram β został odkryty na Qwen3 + AIME24. Inne modele lub rodziny zadań mogą wymagać przesunięcia conf_thresh / ema_alpha, by uniknąć regresji.
Wang et al. wprowadzają samplowanie wielu ścieżek CoT i głosowanie większościowe — bazowy benchmark, który CMC ostatecznie pokonuje na froncie Pareto.
Aggarwal et al. wprowadzają chwilowe Beta-majority confidence z progiem zatrzymania — pierwsza adaptacyjna baseline, którą CMC zastępuje bramką typu momentum.
Zheng et al. wprowadzają jawną oś szerokości i głębokości oraz consensus-based pruning — bezpośredni przodek strukturalny CMC.
Coding agent w środowisku replay iteracyjnie odkrywa CMC: pierwszy kontroler TTS z bramką momentum EMA i sprzężoną kontrolą szerokość-głębokość, ustanawiający nowy front Pareto na AIME25/HMMT25.
Skalar w [0, 1] sterujący wszystkimi hiperparametrami CMC monotonicznie: 0 = tryb oszczędny, 1 = tryb dokładności.
Liczba gałęzi rozumowania spawnowanych w fazie 0; rośnie z β (round(2 + 6·β)).
Twardy górny limit łącznej liczby spawnowanych gałęzi; rośnie z β (round(4 + 60·β), do 64).
Współczynnik EMA pewności puli; maleje z β (0.70 − 0.40·β) — wyższe β oznacza większą inercję.
Próg poziomu EMA wymagany do zatrzymania; rośnie z β (0.85 + 0.12·β).
Tolerowane ujemne nachylenie EMA przy zatrzymaniu; maleje z β (0.04 − 0.03·β).
Liczba kroków probe na rundę dla gałęzi aligned; rośnie z β (max(1, round(1 + 2·β))).
Ile nowych gałęzi spawnować gdy trend EMA jest słaby; rośnie z β (max(1, round(1 + 3·β))).
Próg ema_delta poniżej którego widening jest uruchamiane; maleje z β (0.04 − 0.03·β).
Liczba rund deviant zanim gałąź jest porzucona; rośnie z β (max(3, round(3 + 9·β))).
Liczba rund przed ewaluacją bramki i klasyfikacją gałęzi; rośnie z β (max(2, round(2 + 8·β))).
Długość okna do obliczenia ema_delta; rośnie z β (max(2, round(2 + 6·β))).
Minimalna liczba ukończonych odpowiedzi w puli zanim bramka może odpalić; rośnie z β (max(2, round(2 + 3·β))).
Tryb conditional / dynamic: liczba aktywnych gałęzi i alokacja probowania zależą od bieżącego stanu EMA i klasyfikacji gałęzi. Wszystkie progi i mnożniki są deterministyczną funkcją skalara β.
Probowanie i spawnowanie gałęzi są niezależne i mapują się na batchowe wykonanie LLM-a; punkty synchronizacji to obliczenia statystyk puli, EMA i bramki — pomijalne kosztowo wobec dekodowania.
Równoległe gałęzie rozumowania batchują się naturalnie na GPU; obliczenia EMA, klasyfikacji i bramki są pomijalne kosztowo.