Wnioskowanie

Self-Consistency

2022AktywnyAktualizacja: 7 maja 2026Opublikowany

Strategia dekodowania LLM próbkująca wiele ścieżek Chain-of-Thought i wybierająca odpowiedź przez głosowanie większością; zastępuje dekodowanie zachłanne.

Kluczowa innowacja

Zastąpiła dekodowanie zachłanne w Chain-of-Thought próbkowaniem wielu różnych ścieżek rozumowania i wyborem najczęstszej odpowiedzi, poprawiając niezawodność rozumowania bez dodatkowego treningu.

Kategoria

Wnioskowanie

Poziom abstrakcji

Pattern

Poziom operacji

Inferencja

Zastosowania

Zadania arytmetyczne i matematyczneRozumowanie logiczne i symbolicznePytania wymagające wieloetapowego rozumowaniaWeryfikacja poprawności odpowiedzi LLMGenerowanie odpowiedzi do oceny przez sędziego (LLM-as-judge)

Jak działa

Algorytm: (1) Próbkuj k różnych ścieżek CoT z temperaturą T > 0. (2) Wyodrębnij końcową odpowiedź z każdej ścieżki. (3) Wybierz odpowiedź przez głosowanie większością (najczęściej występującą). Typowy zakres to k = 5–40 ścieżek. Metoda nie wymaga żadnego dodatkowego treningu ani modyfikacji modelu — działa na istniejących LLM-ach jako warstwa nad zwykłą inferencją.

Rozwiązany problem

Dekodowanie zachłanne w Chain-of-Thought jest wrażliwe na błędy pojedynczej ścieżki rozumowania — jeden błędny krok propaguje się do końcowej odpowiedzi.

Implementacja

Implementacje referencyjne

LangChain — self-consistency parser

Python · LangChain

DSPy — multi-sample programy z głosowaniem

Python · Stanford NLP

Pułapki implementacyjne

Koszt rośnie liniowo z kŚrednia

Próbkowanie k ścieżek mnoży koszt inferencji przez k, co bywa kosztowne dla dużych modeli i długich łańcuchów rozumowania.

Rozwiązanie:Dobierać k adaptacyjnie (np. wczesne zatrzymanie, gdy większość ścieżek jest zgodna) lub stosować mniejsze k dla łatwiejszych zadań.

Głosowanie większością nie sprawdza się dla odpowiedzi otwartychŚrednia

Gdy odpowiedzi nie są dyskretne i nie podlegają dokładnemu dopasowaniu (np. proza, kod, dłuższe wyjaśnienia), standardowe głosowanie większością jest bezużyteczne.

Rozwiązanie:Stosować Universal Self-Consistency lub LLM-as-judge do agregacji semantycznie podobnych odpowiedzi.

Wymaga niezerowej temperaturyNiska

Bez różnorodności w próbkowaniu (T = 0) wszystkie ścieżki są identyczne i głosowanie nie wnosi żadnej informacji. Wymagana jest temperatura T > 0 lub top-p < 1.

Rozwiązanie:Stosować T w okolicach 0,5–0,7 i sprawdzić, że wygenerowane ścieżki rozumowania faktycznie się różnią.

Ewolucja

Oryginalny paper · 2022 · ICLR 2023 · Xuezhi Wang

Self-Consistency Improves Chain of Thought Reasoning in Language Models

Xuezhi Wang, Jason Wei, Dale Schuurmans, Quoc Le, Ed Chi, Sharan Narang, Aakanksha Chowdhery, Denny Zhou

2022

Self-Consistency (Wang i in., ICLR 2023)

Punkt przełomowy

Wang i in. proponują głosowanie większością nad wieloma ścieżkami CoT, pokazując poprawę o 17,9 pp na GSM8K względem zwykłego CoT.

Self-Consistency Improves Chain of Thought Reasoning in Language Models (artykuł)

2023

Universal Self-Consistency i rozszerzenia

Późniejsze prace rozszerzają Self-Consistency na zadania otwarte, w których głosowanie przez dokładne dopasowanie odpowiedzi jest niemożliwe (Universal Self-Consistency, Chen i in., 2023).

Universal Self-Consistency for Large Language Model Generation (artykuł)

Szczegóły techniczne

Hiperparametry (konfigurowalne osie)

Liczba próbek (k)Krytyczna

Liczba niezależnie próbkowanych ścieżek CoT. Zwiększanie k poprawia stabilność wyniku, ale liniowo zwiększa koszt inferencji.

5Minimum dla zauważalnej poprawy.

40Wartość użyta w eksperymentach Wang i in. (2022).

Temperatura próbkowaniaWysoka

Temperatura T kontroluje różnorodność ścieżek rozumowania. T = 0 czyni metodę bezużyteczną (brak różnorodności).

0.5–0.7Zakres rekomendowany w pracy źródłowej.

Sposób agregacjiŚrednia

Sposób łączenia wyników ścieżek: głosowanie większością (klasyczny wariant), ważone głosowanie po prawdopodobieństwie ścieżki, klasteryzacja semantyczna (Universal Self-Consistency).

Wymagania sprzętowe

Podstawowe

Self-Consistency to warstwa nad inferencją LLM — niezależna od konkretnego sprzętu. Wszystkie wywołania to standardowa generacja autoregresywna, dobrze zrównoleglająca się na GPU i TPU.

Źródła

Self-Consistency Improves Chain of Thought Reasoning in Language Models

Paper

arXiv / Google Research

Universal Self-Consistency for Large Language Model Generation

Paper

arXiv / Google Research