CoT
Jak działa
1. Few-shot CoT: do promptu wstawia się 4–8 przykładów, gdzie każda odpowiedź zawiera pełny łańcuch rozumowania zakończony finalnym wynikiem (np. „Anna ma 5 jabłek, dostaje 3, więc ma 5+3=8. Odpowiedź to 8"). Model warunkowany tym wzorcem generuje analogiczny łańcuch dla nowego pytania. 2. Zero-shot CoT: do pytania dołącza się frazę wyzwalającą („Pomyślmy krok po kroku") i model w jednym przejściu generuje łańcuch + odpowiedź. 3. Dekodowanie: standardowe (chciwa dekodacja jednego łańcucha) lub Self-Consistency — próbkuje się 10–40 niezależnych łańcuchów z temperaturą > 0 i wybiera najczęstszą finalną odpowiedź przez głosowanie większościowe. 4. Ekstrakcja: finalna odpowiedź jest parsowana z wyjścia modelu po frazie typu „Odpowiedź to" lub jako ostatnie zdanie łańcucha.
Rozwiązany problem
Standardowe few-shot promptowanie LLM zawodzi na zadaniach wieloetapowych — modele udzielają natychmiastowych, niepoprawnych odpowiedzi, ponieważ próbują rozwiązać złożony problem w jednym przejściu. Bez jawnej dekompozycji modele nie potrafią niezawodnie wykonywać arytmetyki, rozumowania zdroworozsądkowego ani symbolicznych manipulacji wymagających kilku zależnych kroków.
Komponenty
W wariancie few-shot prompt zawiera kilka (zazwyczaj 4–8) przykładowych par (pytanie, łańcuch rozumowania, odpowiedź), które warunkują model do generowania własnych kroków rozumowania. W wariancie zero-shot zamiast przykładów dodaje się frazę wyzwalającą.
Oficjalna
Sekwencja pośrednich zdań w języku naturalnym generowana przez model, rozkładająca problem na podcele lub kroki obliczeniowe przed podaniem finalnej odpowiedzi. Jest to centralny artefakt wyjściowy CoT.
Po wygenerowaniu łańcucha rozumowania finalna odpowiedź jest wyodrębniana z wyjścia modelu — przez chciwą dekodację ostatniego zdania, dopasowanie wzorca (np. 'Odpowiedź to') lub głosowanie większościowe nad wieloma próbkowanymi łańcuchami (spójność własna).
Oficjalna
Implementacja
Model może generować pozornie poprawne łańcuchy rozumowania, które w rzeczywistości nie determinują kauzalnie finalnej odpowiedzi — rozumowanie post-hoc racjonalizuje decyzję podjętą przez inne wewnętrzne mechanizmy. Łańcuch może być mylący zamiast wyjaśniający.
W modelach bazowych bez dostrajania specyficznego dla CoT, promptowanie CoT może obniżać skuteczność małych modeli (poniżej ok. 100 mld parametrów wg oryginalnego papieru), gdyż generują pozornie poprawne, lecz błędne kroki pośrednie.
Wybór przykładów few-shot znacząco wpływa na jakość CoT. Źle skonstruowane, niejednoznaczne lub niedopasowane domenowo przykłady mogą degradować jakość rozumowania.
Generowanie łańcuchów rozumowania zwiększa liczbę tokenów wyjściowych, proporcjonalnie zwiększając opóźnienie i koszt API w porównaniu do bezpośredniego promptowania.
Błąd we wczesnym kroku pośrednim propaguje się do wszystkich kolejnych kroków, często prowadząc do pewnie sformułowanej, lecz błędnej finalnej odpowiedzi.
Ewolucja
Wei i in. wykazują, że few-shot promptowanie z przykładami łańcuchów rozumowania znacząco poprawia skuteczność LLM na zadaniach arytmetycznych, zdroworozsądkowych i symbolicznych. Ustanawia CoT jako właściwość emergentną modeli o dużej skali.
Kojima i in. wykazują, że dołączenie frazy 'Pomyślmy krok po kroku' wywołuje łańcuchy rozumowania bez żadnych przykładów, umożliwiając stosowanie CoT bez ręcznej anotacji.
Wang i in. proponują próbkowanie wielu różnorodnych ścieżek rozumowania i wybór najspójniejszej finalnej odpowiedzi przez głosowanie większościowe, znacząco poprawiając dokładność CoT względem chciwej dekodacji.
Yao i in. uogólniają CoT od liniowych łańcuchów do drzewiastego przeszukiwania przestrzeni pośrednich myśli, umożliwiając cofanie się i patrzenie w przód przy wieloetapowym rozwiązywaniu problemów.
OpenAI publikuje o1 — model trenowany przez uczenie przez wzmacnianie na sygnałach nagrody na poziomie procesu do generowania rozszerzonych wewnętrznych łańcuchów rozumowania, zamiast polegania na promptowaniu CoT. Oznacza to przejście od rozumowania wywołanego promptem do rozumowania wytrenowanego w modelu.
DeepSeek publikuje R1 — otwarty model trenowany z optymalizacją polityki grupowej względnej (GRPO) do natywnego generowania długich łańcuchów rozumowania, osiągający wyniki porównywalne do o1 na benchmarkach rozumowania.
Hiperparametry (konfigurowalne osie)
Liczba par (pytanie, łańcuch rozumowania, odpowiedź) zawartych w prompcie. Oryginalny paper używał 8 przykładów na różnych benchmarkach.
W zero-shot CoT fraza dołączana do pytania w celu wywołania rozumowania. Fraza 'Pomyślmy krok po kroku' (ang. Let's think step by step) została wprowadzona przez Kojima i in. (2022).
Liczba niezależnie próbkowanych łańcuchów dla dekodacji ze spójnością własną. Wyższe wartości poprawiają dokładność, ale mnożą koszt obliczeniowy.
Zyski z CoT są silnie zależne od skali modelu. W Wei i in. (2022) korzyści obserwowano głównie w modelach powyżej ok. 100 mld parametrów. Ten próg przesunął się wraz z dostrajaniem mniejszych modeli na danych CoT.
Złożoność obliczeniowa
Złożoność czasowa: O(k · T · C). Złożoność przestrzenna: O(k · T + L).
Wąskie gardło obliczeniowe
Generowanie łańcucha rozumowania wymaga wyprodukowania znacznie większej liczby tokenów wyjściowych niż podejście z bezpośrednią odpowiedzią. Każdy token wymaga jednego autoregresywnego przejścia inferencji modelu, co sprawia że opóźnienie inferencji i koszt są proporcjonalne do długości łańcucha.
Paradygmat wykonania
Wszystkie parametry modelu są aktywne podczas każdego przejścia inferencji. Nie ma rzadkiej ani warunkowej aktywacji. CoT jest strategią promptowania stosowaną w czasie inferencji do standardowego gęstego LLM.
Równoległość
Wiele niezależnych łańcuchów (spójność własna) może być generowanych równolegle w wymiarze wsadowym, jeśli pozwala na to budżet obliczeniowy.
Wymagania sprzętowe
CoT jest techniką stosowaną w czasie inferencji do LLM, które działają najefektywniej na GPU z tensor cores do mnożeń macierzowych w warstwach uwagi i feed-forward transformera.
TPU są powszechnie używane do inferencji LLM na dużą skalę; CoT jest kompatybilne z dowolnym sprzętem zdolnym uruchomić model bazowy.