Wnioskowanie

CoT

2022AktywnyOpublikowano: 12 marca 2026Aktualizacja: 29 maja 2026Opublikowany

Technika wnioskowania, w której duży model językowy generuje sekwencję pośrednich kroków rozumowania przed podaniem finalnej odpowiedzi, znacząco poprawiając skuteczność na złożonych zadaniach wieloetapowych (arytmetyka, logika, zdroworozsądkowe rozumowanie).

Kluczowa innowacja

Wykazanie, że skłonienie dużych modeli językowych do generowania serii pośrednich kroków rozumowania w języku naturalnym przed podaniem finalnej odpowiedzi znacząco poprawia skuteczność na złożonych zadaniach wieloetapowych — przy czym zdolność ta pojawia się jako właściwość emergentna modeli o odpowiednio dużej skali.

Kategoria

Wnioskowanie

Poziom abstrakcji

Wzorzec

Poziom operacji

InferencjaOrkiestracja

Zastosowania

Rozumowanie arytmetyczne (GSM8K, MultiArith, SVAMP)Rozumowanie zdroworozsądkowe (CommonsenseQA, StrategyQA)Rozumowanie symboliczne (Last Letter Concatenation, Coin Flip)Rozwiązywanie zadań tekstowych z matematykiProgramowanie z wyjaśnieniem kroków (chain-of-thought code generation)Agenci LLM podejmujący decyzje wieloetapowe (ReAct, Tree of Thoughts)Automatyczna analiza i interpretacja danych biznesowychGenerowanie wyjaśnień dla decyzji modelu (explainability)

Jak działa

1. Few-shot CoT: do promptu wstawia się 4–8 przykładów, gdzie każda odpowiedź zawiera pełny łańcuch rozumowania zakończony finalnym wynikiem (np. „Anna ma 5 jabłek, dostaje 3, więc ma 5+3=8. Odpowiedź to 8"). Model warunkowany tym wzorcem generuje analogiczny łańcuch dla nowego pytania. 2. Zero-shot CoT: do pytania dołącza się frazę wyzwalającą („Pomyślmy krok po kroku") i model w jednym przejściu generuje łańcuch + odpowiedź. 3. Dekodowanie: standardowe (chciwa dekodacja jednego łańcucha) lub Self-Consistency — próbkuje się 10–40 niezależnych łańcuchów z temperaturą > 0 i wybiera najczęstszą finalną odpowiedź przez głosowanie większościowe. 4. Ekstrakcja: finalna odpowiedź jest parsowana z wyjścia modelu po frazie typu „Odpowiedź to" lub jako ostatnie zdanie łańcucha.

Rozwiązany problem

Standardowe few-shot promptowanie LLM zawodzi na zadaniach wieloetapowych — modele udzielają natychmiastowych, niepoprawnych odpowiedzi, ponieważ próbują rozwiązać złożony problem w jednym przejściu. Bez jawnej dekompozycji modele nie potrafią niezawodnie wykonywać arytmetyki, rozumowania zdroworozsądkowego ani symbolicznych manipulacji wymagających kilku zależnych kroków.

Komponenty

Prompt z przykładami CoTWarunkowanie modelu na generowanie kroków rozumowania przed podaniem odpowiedzi

W wariancie few-shot prompt zawiera kilka (zazwyczaj 4–8) przykładowych par (pytanie, łańcuch rozumowania, odpowiedź), które warunkują model do generowania własnych kroków rozumowania. W wariancie zero-shot zamiast przykładów dodaje się frazę wyzwalającą.

Few-shot CoTRęcznie opracowane przykłady z łańcuchami rozumowania zawarte w prompcie.

Zero-shot CoTFraza wyzwalająca dołączona do pytania bez przykładów (Kojima i in., 2022).

Auto-CoTAutomatycznie generowane przykłady przez klasteryzację i generację zero-shot (Zhang i in., 2022).

Oficjalna

Łańcuch rozumowaniaRozkład złożonego problemu na weryfikowalne kroki pośrednie

Sekwencja pośrednich zdań w języku naturalnym generowana przez model, rozkładająca problem na podcele lub kroki obliczeniowe przed podaniem finalnej odpowiedzi. Jest to centralny artefakt wyjściowy CoT.

OUTTekst w języku naturalnym: sekwencja kroków rozumowania zakończona frazą finalnej odpowiedzi (np. 'Odpowiedź to X').

Ekstrakcja finalnej odpowiedziParsowanie finalnej odpowiedzi z wyjścia modelu zawierającego łańcuch rozumowania

Po wygenerowaniu łańcucha rozumowania finalna odpowiedź jest wyodrębniana z wyjścia modelu — przez chciwą dekodację ostatniego zdania, dopasowanie wzorca (np. 'Odpowiedź to') lub głosowanie większościowe nad wieloma próbkowanymi łańcuchami (spójność własna).

Chciwa dekodacja (pojedynczy łańcuch)Jedno chciwe przejście dekodacji; finalna odpowiedź parsowana z wyjścia modelu.

Głosowanie większościowe (spójność własna)Wielokrotne próbkowanie łańcuchów; wybierana jest najczęstsza finalna odpowiedź (Wang i in., 2022).

Oficjalna

Implementacja

Implementacje referencyjne

LangChain – chain-of-thought prompting

Python · LangChain

DSPy – ChainOfThought module

Python · Stanford NLP

PromptBench – CoT reasoning evaluation

Python · Microsoft Research

Auto-CoT – automatic chain-of-thought prompting

Python · Amazon Science (Zhang et al.)

Oficjalna

Pułapki implementacyjne

Niewierne łańcuchy rozumowaniaWysoka

Model może generować pozornie poprawne łańcuchy rozumowania, które w rzeczywistości nie determinują kauzalnie finalnej odpowiedzi — rozumowanie post-hoc racjonalizuje decyzję podjętą przez inne wewnętrzne mechanizmy. Łańcuch może być mylący zamiast wyjaśniający.

Rozwiązanie:Nie traktuj wyjść CoT jako wiarygodnych wyjaśnień. Weryfikuj finalne odpowiedzi niezależnie. Stosuj modele nagrody za proces, gdy wymagane jest wierne rozumowanie.

Zależność od skali — małe modele pogarsza wynikiWysoka

W modelach bazowych bez dostrajania specyficznego dla CoT, promptowanie CoT może obniżać skuteczność małych modeli (poniżej ok. 100 mld parametrów wg oryginalnego papieru), gdyż generują pozornie poprawne, lecz błędne kroki pośrednie.

Rozwiązanie:Stosuj odpowiednio duże modele lub modele dostrojone na danych CoT dla mniejszej liczby parametrów.

Wrażliwość na jakość i dobór przykładówŚrednia

Wybór przykładów few-shot znacząco wpływa na jakość CoT. Źle skonstruowane, niejednoznaczne lub niedopasowane domenowo przykłady mogą degradować jakość rozumowania.

Rozwiązanie:Starannie dobieraj przykłady; stosuj metody aktywnego wyboru (Active-Prompt) lub automatycznego generowania łańcuchów, aby znaleźć najbardziej informatywne przykłady dla docelowego zadania.

Zwiększony koszt inferencjiŚrednia

Generowanie łańcuchów rozumowania zwiększa liczbę tokenów wyjściowych, proporcjonalnie zwiększając opóźnienie i koszt API w porównaniu do bezpośredniego promptowania.

Rozwiązanie:Stosuj CoT selektywnie dla zadań, gdzie demonstrowalnie poprawia dokładność; dla prostych zadań bezpośrednie promptowanie może wystarczyć przy niższym koszcie.

Kumulowanie błędów przez krokiWysoka

Błąd we wczesnym kroku pośrednim propaguje się do wszystkich kolejnych kroków, często prowadząc do pewnie sformułowanej, lecz błędnej finalnej odpowiedzi.

Rozwiązanie:Stosuj spójność własną (głosowanie większościowe nad wieloma próbkowanymi łańcuchami), aby zmniejszyć wpływ błędów pojedynczego łańcucha; używaj kroków weryfikacyjnych lub wywołań zewnętrznych narzędzi do sprawdzania obliczeń pośrednich.

Ewolucja

Oryginalny paper · 2022 · NeurIPS 2022 · Jason Wei

Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed Chi, Quoc Le, Denny Zhou

2022

Kilkuprzykładowe pobudzanie łańcuchem myśli (Wei i in.)

Punkt przełomowy

Wei i in. wykazują, że few-shot promptowanie z przykładami łańcuchów rozumowania znacząco poprawia skuteczność LLM na zadaniach arytmetycznych, zdroworozsądkowych i symbolicznych. Ustanawia CoT jako właściwość emergentną modeli o dużej skali.

Chain-of-Thought Prompting Elicits Reasoning in Large Language Models (artykuł)

2022

Zero-shot Chain-of-Thought (Kojima i in.)

Punkt przełomowy

Kojima i in. wykazują, że dołączenie frazy 'Pomyślmy krok po kroku' wywołuje łańcuchy rozumowania bez żadnych przykładów, umożliwiając stosowanie CoT bez ręcznej anotacji.

Large Language Models are Zero-Shot Reasoners (artykuł)

2022

Dekodacja ze spójnością własną dla CoT (Wang i in.)

Punkt przełomowy

Wang i in. proponują próbkowanie wielu różnorodnych ścieżek rozumowania i wybór najspójniejszej finalnej odpowiedzi przez głosowanie większościowe, znacząco poprawiając dokładność CoT względem chciwej dekodacji.

Self-Consistency Improves Chain of Thought Reasoning in Language Models (artykuł)

2023

Drzewo Myśli – Tree of Thoughts (Yao i in.)

Yao i in. uogólniają CoT od liniowych łańcuchów do drzewiastego przeszukiwania przestrzeni pośrednich myśli, umożliwiając cofanie się i patrzenie w przód przy wieloetapowym rozwiązywaniu problemów.

Tree of Thoughts: Deliberate Problem Solving with Large Language Models (artykuł)

2024

Natywne modele rozumujące internalizują CoT przez RL (OpenAI o1)

Punkt przełomowy

OpenAI publikuje o1 — model trenowany przez uczenie przez wzmacnianie na sygnałach nagrody na poziomie procesu do generowania rozszerzonych wewnętrznych łańcuchów rozumowania, zamiast polegania na promptowaniu CoT. Oznacza to przejście od rozumowania wywołanego promptem do rozumowania wytrenowanego w modelu.

2025

Otwarte modele rozumujące (DeepSeek-R1)

DeepSeek publikuje R1 — otwarty model trenowany z optymalizacją polityki grupowej względnej (GRPO) do natywnego generowania długich łańcuchów rozumowania, osiągający wyniki porównywalne do o1 na benchmarkach rozumowania.

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning (artykuł)