Wnioskowanie

Adaptive-Consistency

2023Opublikowano: 30 maja 2026

Adaptive-Consistency to training-free strategia test-time scaling, która rozszerza Self-Consistency o adaptacyjne, per-przykładowe kryterium zatrzymania — łatwe instancje wymagają tylko kilku próbek, trudne dostają więcej, dzięki czemu średni koszt spada nawet ~3× przy zaniedbywalnym spadku jakości.

Kluczowa innowacja

Adaptacyjne, per-instancyjne kryterium zatrzymania samplowania w Self-Consistency: rozkład Beta nad prawdopodobieństwem, że bieżąca większościowa odpowiedź jest prawdziwą większością populacji, pozwala dynamicznie zakończyć generację gdy poziom ufności przekroczy próg.

Kategoria

Wnioskowanie

Poziom abstrakcji

Wzorzec

Poziom operacji

Inferencja

Zastosowania

Math word problems and arithmetic reasoning with chain-of-thought (GSM8K, SVAMP, AQuA, ASDiv).Commonsense reasoning benchmarks (StrategyQA, Date Understanding).Code generation with majority voting over candidate programs.Cost-aware deployment of Self-Consistency in production reasoning pipelines.Latency-sensitive inference where average sample count matters more than worst case.

Jak działa

Algorytm rozpoczyna samplowanie ścieżek chain-of-thought tak jak Self-Consistency. Po każdej kolejnej próbce aktualizuje statystyki: zliczenia każdej unikalnej odpowiedzi i ich frakcje. Następnie wylicza posterior Beta nad prawdopodobieństwem, że bieżąca większościowa odpowiedź jest prawdziwą większością populacji (rozkład Dirichlet/Beta nad multinomialem odpowiedzi, z priorem nieinformatywnym lub Jeffreys). Jeśli posterior mass na tym zdarzeniu przekracza próg ufności (np. 0.95), samplowanie zostaje zakończone i większościowa odpowiedź jest zwracana. W przeciwnym razie algorytm kontynuuje aż do limitu maksymalnej liczby próbek K. Implementacja sprowadza się do kilku linii kodu nad standardową pętlą Self-Consistency.

Rozwiązany problem

Self-Consistency używa stałej liczby próbek K niezależnie od trudności przykładu. Dla łatwych instancji konsensus jest osiągnięty już po kilku próbkach, więc pozostałe są marnotrawstwem; dla trudnych K może być zbyt małe. Adaptive-Consistency dynamicznie alokuje budżet samplowania per-przykład, zatrzymując generację gdy bieżąca większościowa odpowiedź jest statystycznie wystarczająco pewna.

Kluczowe mechanizmy

Bayesowski model Beta-Binomial nad częstością większościowej odpowiedzi.

Per-instancyjne kryterium zatrzymania oparte na progu posterior confidence (np. 0.95).

Adaptacyjny budżet: łatwe przykłady kończą się po 2–5 próbkach, trudne dostają pełne K.

Tryb training-free i model-agnostic — nakłada się na dowolny LLM bez modyfikacji wag.

Mocne strony i ograniczenia

Mocne strony

✓Redukcja średniej liczby próbek ~3× względem Self-Consistency przy spadku dokładności <0.1 p.p. (raportowane na 17 zadaniach).

✓Brak treningu — działa nad dowolnym istniejącym LLM bez fine-tuningu.

✓Bardzo prosta implementacja — kilka linii kodu nad pętlą Self-Consistency.

✓Ortogonalna do innych technik TTS i kompatybilna z dowolnym promptem CoT.

✓Statystyczna gwarancja jakości — próg ufności kontroluje trade-off cost/quality jednym hiperparametrem.

Ograniczenia

✗Wymaga, żeby odpowiedzi dawały się zagregować w dyskretne klasy (głosowanie większościowe) — gorzej pasuje do zadań open-ended z otwartą przestrzenią odpowiedzi.

✗Próg ufności i prior wymagają dostrojenia do zadania; źle dobrane wartości obniżają zysk lub jakość.

✗Dla zadań, w których konsensus jest iluzoryczny (większość ścieżek zbiega do tego samego błędu), wczesne zatrzymanie utrwala błąd.

✗Sygnał jest słaby przy bardzo małej liczbie unikatowych odpowiedzi — minimalna liczba próbek przed pierwszą oceną jest praktycznym wymogiem.

Implementacja

Implementacje referencyjne

Pranjal2041/AdaptiveConsistency (GitHub)

Python · Pranjal Aggarwal et al.

Oficjalna

Project page — sample-step-by-step.info

Authors

Oficjalna

Pułapki implementacyjne

Zbyt agresywny próg ufnościWysoka

Niski próg (np. 0.7) prowadzi do wczesnego zatrzymania na pozornym konsensusie, zwłaszcza gdy bazowy LLM ma silne, ale błędne preferencje.

Rozwiązanie:Zacznij od progu 0.95 i waliduj na hold-out; dla bardzo trudnych zadań rozważ 0.99.

Brak normalizacji odpowiedzi przed głosowaniemŚrednia

Jeśli te same matematycznie odpowiedzi mają różne reprezentacje stringowe (np. "1/2" vs "0.5"), liczone są jako różne, co zaszumia rozkład i utrudnia osiągnięcie progu.

Rozwiązanie:Zastosuj normalizację odpowiedzi (parsowanie liczb, ujednolicenie jednostek) przed zliczaniem głosów.

Zbyt wczesne sprawdzanie kryteriumŚrednia

Sprawdzanie progu już po 1–2 próbkach prowadzi do nadmiernie pewnego posterior i przedwczesnego stop, zwłaszcza z silnym priorem.

Rozwiązanie:Ustaw min_samples na 3–5 i dopiero potem zacznij ewaluować kryterium.

Ewolucja

Oryginalny paper · 2023 · EMNLP 2023 · Pranjal Aggarwal

Let's Sample Step by Step: Adaptive-Consistency for Efficient Reasoning and Coding with LLMs

Pranjal Aggarwal, Aman Madaan, Yiming Yang, Mausam

2022

Self-Consistency wprowadza majority voting nad ścieżkami CoT

Wang et al. pokazują, że samplowanie wielu ścieżek CoT i głosowanie większościowe znacząco poprawia rozumowanie LLM — bezpośredni punkt wyjścia dla Adaptive-Consistency.

Self-Consistency (koncept)

2023

Publikacja Adaptive-Consistency (EMNLP 2023, arXiv 2305.11860)

Punkt przełomowy

Aggarwal et al. wprowadzają adaptacyjne kryterium zatrzymania oparte na rozkładzie Beta nad częstością większościowej odpowiedzi i pokazują ~3× redukcję liczby próbek przy zachowaniu jakości.