Robocikowo>ROBOCIKOWO
Wnioskowanie

CoT

2022AktywnyAktualizacja: 5 maja 2026Opublikowany
Technika wnioskowania polegająca na generowaniu kroków rozumowania przed odpowiedzią.
Kluczowa innowacja
Wykazanie, że skłonienie dużych modeli językowych do generowania serii pośrednich kroków rozumowania w języku naturalnym przed podaniem finalnej odpowiedzi znacząco poprawia skuteczność na złożonych zadaniach wieloetapowych — przy czym zdolność ta pojawia się jako właściwość emergentna modeli o odpowiednio dużej skali.
Kategoria
Wnioskowanie
Poziom abstrakcji
Pattern
Poziom operacji
InferencjaOrkiestracja
Zastosowania
Rozumowanie arytmetyczne (GSM8K, MultiArith, SVAMP)Rozumowanie zdroworozsądkowe (CommonsenseQA, StrategyQA)Rozumowanie symboliczne (Last Letter Concatenation, Coin Flip)Rozwiązywanie zadań tekstowych z matematykiProgramowanie z wyjaśnieniem kroków (chain-of-thought code generation)Agenci LLM podejmujący decyzje wieloetapowe (ReAct, Tree of Thoughts)Automatyczna analiza i interpretacja danych biznesowychGenerowanie wyjaśnień dla decyzji modelu (explainability)

Jak działa

1. Few-shot CoT: do promptu wstawia się 4–8 przykładów, gdzie każda odpowiedź zawiera pełny łańcuch rozumowania zakończony finalnym wynikiem (np. „Anna ma 5 jabłek, dostaje 3, więc ma 5+3=8. Odpowiedź to 8"). Model warunkowany tym wzorcem generuje analogiczny łańcuch dla nowego pytania. 2. Zero-shot CoT: do pytania dołącza się frazę wyzwalającą („Pomyślmy krok po kroku") i model w jednym przejściu generuje łańcuch + odpowiedź. 3. Dekodowanie: standardowe (chciwa dekodacja jednego łańcucha) lub Self-Consistency — próbkuje się 10–40 niezależnych łańcuchów z temperaturą > 0 i wybiera najczęstszą finalną odpowiedź przez głosowanie większościowe. 4. Ekstrakcja: finalna odpowiedź jest parsowana z wyjścia modelu po frazie typu „Odpowiedź to" lub jako ostatnie zdanie łańcucha.

Rozwiązany problem

Standardowe few-shot promptowanie LLM zawodzi na zadaniach wieloetapowych — modele udzielają natychmiastowych, niepoprawnych odpowiedzi, ponieważ próbują rozwiązać złożony problem w jednym przejściu. Bez jawnej dekompozycji modele nie potrafią niezawodnie wykonywać arytmetyki, rozumowania zdroworozsądkowego ani symbolicznych manipulacji wymagających kilku zależnych kroków.

Komponenty

Prompt z przykładami CoTWarunkowanie modelu na generowanie kroków rozumowania przed podaniem odpowiedzi

W wariancie few-shot prompt zawiera kilka (zazwyczaj 4–8) przykładowych par (pytanie, łańcuch rozumowania, odpowiedź), które warunkują model do generowania własnych kroków rozumowania. W wariancie zero-shot zamiast przykładów dodaje się frazę wyzwalającą.

Few-shot CoTRęcznie opracowane przykłady z łańcuchami rozumowania zawarte w prompcie.
Zero-shot CoTFraza wyzwalająca dołączona do pytania bez przykładów (Kojima i in., 2022).
Auto-CoTAutomatycznie generowane przykłady przez klasteryzację i generację zero-shot (Zhang i in., 2022).

Oficjalna

Łańcuch rozumowaniaRozkład złożonego problemu na weryfikowalne kroki pośrednie

Sekwencja pośrednich zdań w języku naturalnym generowana przez model, rozkładająca problem na podcele lub kroki obliczeniowe przed podaniem finalnej odpowiedzi. Jest to centralny artefakt wyjściowy CoT.

OUTTekst w języku naturalnym: sekwencja kroków rozumowania zakończona frazą finalnej odpowiedzi (np. 'Odpowiedź to X').
Ekstrakcja finalnej odpowiedziParsowanie finalnej odpowiedzi z wyjścia modelu zawierającego łańcuch rozumowania

Po wygenerowaniu łańcucha rozumowania finalna odpowiedź jest wyodrębniana z wyjścia modelu — przez chciwą dekodację ostatniego zdania, dopasowanie wzorca (np. 'Odpowiedź to') lub głosowanie większościowe nad wieloma próbkowanymi łańcuchami (spójność własna).

Chciwa dekodacja (pojedynczy łańcuch)Jedno chciwe przejście dekodacji; finalna odpowiedź parsowana z wyjścia modelu.
Głosowanie większościowe (spójność własna)Wielokrotne próbkowanie łańcuchów; wybierana jest najczęstsza finalna odpowiedź (Wang i in., 2022).

Oficjalna

Implementacja

Pułapki implementacyjne
Niewierne łańcuchy rozumowaniaWysoka

Model może generować pozornie poprawne łańcuchy rozumowania, które w rzeczywistości nie determinują kauzalnie finalnej odpowiedzi — rozumowanie post-hoc racjonalizuje decyzję podjętą przez inne wewnętrzne mechanizmy. Łańcuch może być mylący zamiast wyjaśniający.

Rozwiązanie:Nie traktuj wyjść CoT jako wiarygodnych wyjaśnień. Weryfikuj finalne odpowiedzi niezależnie. Stosuj modele nagrody za proces, gdy wymagane jest wierne rozumowanie.
Zależność od skali — małe modele pogarsza wynikiWysoka

W modelach bazowych bez dostrajania specyficznego dla CoT, promptowanie CoT może obniżać skuteczność małych modeli (poniżej ok. 100 mld parametrów wg oryginalnego papieru), gdyż generują pozornie poprawne, lecz błędne kroki pośrednie.

Rozwiązanie:Stosuj odpowiednio duże modele lub modele dostrojone na danych CoT dla mniejszej liczby parametrów.
Wrażliwość na jakość i dobór przykładówŚrednia

Wybór przykładów few-shot znacząco wpływa na jakość CoT. Źle skonstruowane, niejednoznaczne lub niedopasowane domenowo przykłady mogą degradować jakość rozumowania.

Rozwiązanie:Starannie dobieraj przykłady; stosuj metody aktywnego wyboru (Active-Prompt) lub automatycznego generowania łańcuchów, aby znaleźć najbardziej informatywne przykłady dla docelowego zadania.
Zwiększony koszt inferencjiŚrednia

Generowanie łańcuchów rozumowania zwiększa liczbę tokenów wyjściowych, proporcjonalnie zwiększając opóźnienie i koszt API w porównaniu do bezpośredniego promptowania.

Rozwiązanie:Stosuj CoT selektywnie dla zadań, gdzie demonstrowalnie poprawia dokładność; dla prostych zadań bezpośrednie promptowanie może wystarczyć przy niższym koszcie.
Kumulowanie błędów przez krokiWysoka

Błąd we wczesnym kroku pośrednim propaguje się do wszystkich kolejnych kroków, często prowadząc do pewnie sformułowanej, lecz błędnej finalnej odpowiedzi.

Rozwiązanie:Stosuj spójność własną (głosowanie większościowe nad wieloma próbkowanymi łańcuchami), aby zmniejszyć wpływ błędów pojedynczego łańcucha; używaj kroków weryfikacyjnych lub wywołań zewnętrznych narzędzi do sprawdzania obliczeń pośrednich.

Ewolucja

Oryginalny paper · 2022 · NeurIPS 2022 · Jason Wei
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed Chi, Quoc Le, Denny Zhou
2022
Kilkuprzykładowe pobudzanie łańcuchem myśli (Wei i in.)
Punkt przełomowy

Wei i in. wykazują, że few-shot promptowanie z przykładami łańcuchów rozumowania znacząco poprawia skuteczność LLM na zadaniach arytmetycznych, zdroworozsądkowych i symbolicznych. Ustanawia CoT jako właściwość emergentną modeli o dużej skali.

2022
Zero-shot Chain-of-Thought (Kojima i in.)
Punkt przełomowy

Kojima i in. wykazują, że dołączenie frazy 'Pomyślmy krok po kroku' wywołuje łańcuchy rozumowania bez żadnych przykładów, umożliwiając stosowanie CoT bez ręcznej anotacji.

2022
Dekodacja ze spójnością własną dla CoT (Wang i in.)
Punkt przełomowy

Wang i in. proponują próbkowanie wielu różnorodnych ścieżek rozumowania i wybór najspójniejszej finalnej odpowiedzi przez głosowanie większościowe, znacząco poprawiając dokładność CoT względem chciwej dekodacji.

2023
Drzewo Myśli – Tree of Thoughts (Yao i in.)

Yao i in. uogólniają CoT od liniowych łańcuchów do drzewiastego przeszukiwania przestrzeni pośrednich myśli, umożliwiając cofanie się i patrzenie w przód przy wieloetapowym rozwiązywaniu problemów.

2024
Natywne modele rozumujące internalizują CoT przez RL (OpenAI o1)
Punkt przełomowy

OpenAI publikuje o1 — model trenowany przez uczenie przez wzmacnianie na sygnałach nagrody na poziomie procesu do generowania rozszerzonych wewnętrznych łańcuchów rozumowania, zamiast polegania na promptowaniu CoT. Oznacza to przejście od rozumowania wywołanego promptem do rozumowania wytrenowanego w modelu.

2025
Otwarte modele rozumujące (DeepSeek-R1)

DeepSeek publikuje R1 — otwarty model trenowany z optymalizacją polityki grupowej względnej (GRPO) do natywnego generowania długich łańcuchów rozumowania, osiągający wyniki porównywalne do o1 na benchmarkach rozumowania.

Hiperparametry (konfigurowalne osie)

Liczba przykładów CoTWysoka

Liczba par (pytanie, łańcuch rozumowania, odpowiedź) zawartych w prompcie. Oryginalny paper używał 8 przykładów na różnych benchmarkach.

0Zero-shot CoT: brak przykładów, tylko fraza wyzwalająca.
4–8Standardowy zakres few-shot CoT stosowany w Wei i in. (2022).
Fraza wyzwalająca CoT (zero-shot)Średnia

W zero-shot CoT fraza dołączana do pytania w celu wywołania rozumowania. Fraza 'Pomyślmy krok po kroku' (ang. Let's think step by step) została wprowadzona przez Kojima i in. (2022).

Let's think step by step
Think carefully and solve step by step.
Liczba próbkowanych ścieżek rozumowania (spójność własna)Wysoka

Liczba niezależnie próbkowanych łańcuchów dla dekodacji ze spójnością własną. Wyższe wartości poprawiają dokładność, ale mnożą koszt obliczeniowy.

1Chciwa dekodacja pojedynczego łańcucha (standardowy CoT).
10–40Zakres spójności własnej stosowany w Wang i in. (2022).
Liczba parametrów modeluKrytyczna

Zyski z CoT są silnie zależne od skali modelu. W Wei i in. (2022) korzyści obserwowano głównie w modelach powyżej ok. 100 mld parametrów. Ten próg przesunął się wraz z dostrajaniem mniejszych modeli na danych CoT.

≥100B (2022 threshold for emergent CoT)Dla modeli bazowych bez dostrajania na CoT.
7B–70B (fine-tuned CoT models)Mniejsze modele dostrojone na danych CoT mogą wykazywać rozumowanie.

Złożoność obliczeniowa

Złożoność czasowa: O(k · T · C). Złożoność przestrzenna: O(k · T + L).

Wąskie gardło obliczeniowe

Rozszerzona autoregresywna generacja kroków rozumowania

Generowanie łańcucha rozumowania wymaga wyprodukowania znacznie większej liczby tokenów wyjściowych niż podejście z bezpośrednią odpowiedzią. Każdy token wymaga jednego autoregresywnego przejścia inferencji modelu, co sprawia że opóźnienie inferencji i koszt są proporcjonalne do długości łańcucha.

Zależy od
Długość łańcucha rozumowaniaLiczba próbkowanych ścieżek (spójność własna)

Paradygmat wykonania

Tryb główny
dense

Wszystkie parametry modelu są aktywne podczas każdego przejścia inferencji. Nie ma rzadkiej ani warunkowej aktywacji. CoT jest strategią promptowania stosowaną w czasie inferencji do standardowego gęstego LLM.

Wzorzec aktywacji
all_paths_active
Mechanizm routingu

Równoległość

Poziom równoległości
sequential

Wiele niezależnych łańcuchów (spójność własna) może być generowanych równolegle w wymiarze wsadowym, jeśli pozwala na to budżet obliczeniowy.

Zakres
inference
Ograniczenia
!Każdy token kroku rozumowania zależy od wszystkich poprzednich tokenów w łańcuchu; standardowa dekodacja autoregresywna jest z natury sekwencyjna.

Wymagania sprzętowe

Podstawowe

CoT jest techniką stosowaną w czasie inferencji do LLM, które działają najefektywniej na GPU z tensor cores do mnożeń macierzowych w warstwach uwagi i feed-forward transformera.

Dobry fit

TPU są powszechnie używane do inferencji LLM na dużą skalę; CoT jest kompatybilne z dowolnym sprzętem zdolnym uruchomić model bazowy.