Algorytm rozpoczyna samplowanie ścieżek chain-of-thought tak jak Self-Consistency. Po każdej kolejnej próbce aktualizuje statystyki: zliczenia każdej unikalnej odpowiedzi i ich frakcje. Następnie wylicza posterior Beta nad prawdopodobieństwem, że bieżąca większościowa odpowiedź jest prawdziwą większością populacji (rozkład Dirichlet/Beta nad multinomialem odpowiedzi, z priorem nieinformatywnym lub Jeffreys). Jeśli posterior mass na tym zdarzeniu przekracza próg ufności (np. 0.95), samplowanie zostaje zakończone i większościowa odpowiedź jest zwracana. W przeciwnym razie algorytm kontynuuje aż do limitu maksymalnej liczby próbek K. Implementacja sprowadza się do kilku linii kodu nad standardową pętlą Self-Consistency.
Self-Consistency używa stałej liczby próbek K niezależnie od trudności przykładu. Dla łatwych instancji konsensus jest osiągnięty już po kilku próbkach, więc pozostałe są marnotrawstwem; dla trudnych K może być zbyt małe. Adaptive-Consistency dynamicznie alokuje budżet samplowania per-przykład, zatrzymując generację gdy bieżąca większościowa odpowiedź jest statystycznie wystarczająco pewna.
Niski próg (np. 0.7) prowadzi do wczesnego zatrzymania na pozornym konsensusie, zwłaszcza gdy bazowy LLM ma silne, ale błędne preferencje.
Jeśli te same matematycznie odpowiedzi mają różne reprezentacje stringowe (np. "1/2" vs "0.5"), liczone są jako różne, co zaszumia rozkład i utrudnia osiągnięcie progu.
Sprawdzanie progu już po 1–2 próbkach prowadzi do nadmiernie pewnego posterior i przedwczesnego stop, zwłaszcza z silnym priorem.
Wang et al. pokazują, że samplowanie wielu ścieżek CoT i głosowanie większościowe znacząco poprawia rozumowanie LLM — bezpośredni punkt wyjścia dla Adaptive-Consistency.
Aggarwal et al. wprowadzają adaptacyjne kryterium zatrzymania oparte na rozkładzie Beta nad częstością większościowej odpowiedzi i pokazują ~3× redukcję liczby próbek przy zachowaniu jakości.
Górny limit liczby ścieżek CoT generowanych dla pojedynczego przykładu (rola K ze Self-Consistency).
Próg posterior mass na zdarzeniu „bieżąca większościowa odpowiedź jest prawdziwą większością”, powyżej którego samplowanie zostaje zatrzymane.
Wybór priora dla rozkładu Beta/Dirichlet (np. uniform, Jeffreys). Wpływa na zachowanie przy małej liczbie próbek.
Liczba próbek pobieranych zanim algorytm zacznie sprawdzać kryterium zatrzymania — chroni przed przedwczesnym stop na bardzo małej próbie.
Liczba aktywnie generowanych ścieżek zależy od bieżącego stanu rozkładu odpowiedzi — paradygmat warunkowy z dynamicznym budżetem.
Próbki są sekwencyjne tylko logicznie — nic nie stoi na przeszkodzie samplować w paczkach po kilka i sprawdzać kryterium zatrzymania po każdej paczce, co odzyskuje równoległość kosztem niewielkiej utraty oszczędności.
Próbki CoT mogą być batchowane na GPU; ocena kryterium zatrzymania jest pomijalnie tania w porównaniu z kosztem generacji.