Robocikowo>ROBOCIKOWO
Wnioskowanie

Self-Consistency

2022AktywnyAktualizacja: 7 maja 2026Opublikowany
Strategia dekodowania LLM próbkująca wiele ścieżek Chain-of-Thought i wybierająca odpowiedź przez głosowanie większością; zastępuje dekodowanie zachłanne.
Kluczowa innowacja
Zastąpiła dekodowanie zachłanne w Chain-of-Thought próbkowaniem wielu różnych ścieżek rozumowania i wyborem najczęstszej odpowiedzi, poprawiając niezawodność rozumowania bez dodatkowego treningu.
Kategoria
Wnioskowanie
Poziom abstrakcji
Pattern
Poziom operacji
Inferencja
Zastosowania
Zadania arytmetyczne i matematyczneRozumowanie logiczne i symbolicznePytania wymagające wieloetapowego rozumowaniaWeryfikacja poprawności odpowiedzi LLMGenerowanie odpowiedzi do oceny przez sędziego (LLM-as-judge)

Jak działa

Algorytm: (1) Próbkuj k różnych ścieżek CoT z temperaturą T > 0. (2) Wyodrębnij końcową odpowiedź z każdej ścieżki. (3) Wybierz odpowiedź przez głosowanie większością (najczęściej występującą). Typowy zakres to k = 5–40 ścieżek. Metoda nie wymaga żadnego dodatkowego treningu ani modyfikacji modelu — działa na istniejących LLM-ach jako warstwa nad zwykłą inferencją.

Rozwiązany problem

Dekodowanie zachłanne w Chain-of-Thought jest wrażliwe na błędy pojedynczej ścieżki rozumowania — jeden błędny krok propaguje się do końcowej odpowiedzi.

Implementacja

Pułapki implementacyjne
Koszt rośnie liniowo z kŚrednia

Próbkowanie k ścieżek mnoży koszt inferencji przez k, co bywa kosztowne dla dużych modeli i długich łańcuchów rozumowania.

Rozwiązanie:Dobierać k adaptacyjnie (np. wczesne zatrzymanie, gdy większość ścieżek jest zgodna) lub stosować mniejsze k dla łatwiejszych zadań.
Głosowanie większością nie sprawdza się dla odpowiedzi otwartychŚrednia

Gdy odpowiedzi nie są dyskretne i nie podlegają dokładnemu dopasowaniu (np. proza, kod, dłuższe wyjaśnienia), standardowe głosowanie większością jest bezużyteczne.

Rozwiązanie:Stosować Universal Self-Consistency lub LLM-as-judge do agregacji semantycznie podobnych odpowiedzi.
Wymaga niezerowej temperaturyNiska

Bez różnorodności w próbkowaniu (T = 0) wszystkie ścieżki są identyczne i głosowanie nie wnosi żadnej informacji. Wymagana jest temperatura T > 0 lub top-p < 1.

Rozwiązanie:Stosować T w okolicach 0,5–0,7 i sprawdzić, że wygenerowane ścieżki rozumowania faktycznie się różnią.

Ewolucja

Oryginalny paper · 2022 · ICLR 2023 · Xuezhi Wang
Self-Consistency Improves Chain of Thought Reasoning in Language Models
Xuezhi Wang, Jason Wei, Dale Schuurmans, Quoc Le, Ed Chi, Sharan Narang, Aakanksha Chowdhery, Denny Zhou
2022
Self-Consistency (Wang i in., ICLR 2023)
Punkt przełomowy

Wang i in. proponują głosowanie większością nad wieloma ścieżkami CoT, pokazując poprawę o 17,9 pp na GSM8K względem zwykłego CoT.

2023
Universal Self-Consistency i rozszerzenia

Późniejsze prace rozszerzają Self-Consistency na zadania otwarte, w których głosowanie przez dokładne dopasowanie odpowiedzi jest niemożliwe (Universal Self-Consistency, Chen i in., 2023).

Szczegóły techniczne

Hiperparametry (konfigurowalne osie)

Liczba próbek (k)Krytyczna

Liczba niezależnie próbkowanych ścieżek CoT. Zwiększanie k poprawia stabilność wyniku, ale liniowo zwiększa koszt inferencji.

5Minimum dla zauważalnej poprawy.
40Wartość użyta w eksperymentach Wang i in. (2022).
Temperatura próbkowaniaWysoka

Temperatura T kontroluje różnorodność ścieżek rozumowania. T = 0 czyni metodę bezużyteczną (brak różnorodności).

0.5–0.7Zakres rekomendowany w pracy źródłowej.
Sposób agregacjiŚrednia

Sposób łączenia wyników ścieżek: głosowanie większością (klasyczny wariant), ważone głosowanie po prawdopodobieństwie ścieżki, klasteryzacja semantyczna (Universal Self-Consistency).

Wymagania sprzętowe

Podstawowe

Self-Consistency to warstwa nad inferencją LLM — niezależna od konkretnego sprzętu. Wszystkie wywołania to standardowa generacja autoregresywna, dobrze zrównoleglająca się na GPU i TPU.