Robocikowo>ROBOCIKOWO
Wnioskowanie

ToT

2023AktywnyAktualizacja: 6 maja 2026Opublikowany
Ramka rozumowania LLM generujaca i oceniajaca wiele galezi rozumowania w postaci drzewa z mozliwoscia cofania, zamiast jednej linearnej sciezki CoT.
Kluczowa innowacja
Rozszezyło Chain-of-Thought o eksploracje drzewa potencjalnych sciezek rozumowania z mechanizmem oceny i cofania sie, umozliwiajac strategiczne planowanie i przeszukiwanie przestrzeni rozwiazania.
Kategoria
Wnioskowanie
Poziom abstrakcji
Pattern
Poziom operacji
Inferencja
Zastosowania
Zagadki matematyczne wymagajace planowaniaProblemy kombinatoryczneGenerowanie kodu z testowaniemPlanowanie agentoweGry logiczne

Jak działa

ToT rozszczepia wnioskowanie na trzy komponenty: (1) Generator mysli - LLM produkuje kandydatow na nastepny krok rozumowania, (2) Ewaluator mysli - LLM lub osobna funkcja ocenia obiecujanosc kazdego stanu, (3) Algorytm przeszukiwania - BFS lub DFS (lub beam search) eksploruje drzewo stanow. Model moze cofac sie do poprzedniego stanu i probowac innej galezi.

Rozwiązany problem

Modele jezykowe z CoT sa ograniczone do lewo-prawej, token-po-tokenie decyzji podczas wnioskowania, co nie sprawdza sie na zadaniach wymagajacych eksploracji, strategicznego planowania lub gdy poczatkowe decyzje sa krytyczne.

Komponenty

Generator myśliProdukuje kandydatów na kolejny krok rozumowania na podstawie aktualnego stanu drzewa.

Komponent oparty na LLM, który generuje k kandydatów na nową myśl. Dwie strategie: 'sample' (niezależne próbkowanie z tego samego promptu - przy bogatej przestrzeni myśli, np. Creative Writing) lub 'propose' (sekwencyjne proponowanie kilku myśli w jednym promptcie - przy ograniczonej przestrzeni, np. Game of 24).

sampleNiezależne próbkowanie z temperaturą.
proposeSekwencyjne proponowanie wielu myśli w jednym wywołaniu.

Oficjalna

Ewaluator stanuOcenia obiecującość każdego stanu pośredniego (myśli) jako heurystyka dla algorytmu przeszukiwania.

LLM ocenia każdy stan na dwa sposoby: 'value' (przypisuje wartość liczbową lub kategorialną pojedynczemu stanowi, używane w Game of 24) lub 'vote' (porównuje wiele stanów i głosuje na najlepszy, używane w Creative Writing). Heurystyka jest miękka i zależy od jakości LLM.

valueNiezależna ocena wartości pojedynczego stanu.
voteGłosowanie LLM nad zbiorem stanów kandydatów.

Oficjalna

Algorytm przeszukiwaniaEksploruje drzewo stanów myśli używając klasycznych algorytmów grafowych.

ToT używa klasycznych algorytmów: BFS (Game of 24, Creative Writing - utrzymuje b najobiecujących stanów na każdym poziomie) lub DFS (Mini Crosswords - eksploruje głęboko z cofaniem gdy stan jest oceniony jako mało obiecujący). Algorytm jest niezależny od LLM.

BFSPrzeszukiwanie wszerz z beam o szerokości b.
DFSPrzeszukiwanie w głąb z cofaniem.

Oficjalna

Implementacja

Pułapki implementacyjne
Wysoki koszt obliczeniowyWysoka
Ewaluator mysli moze byc zawodnyŚrednia

Ewolucja

Oryginalny paper · 2023 · NeurIPS 2023 · Shunyu Yao
Tree of Thoughts: Deliberate Problem Solving with Large Language Models
Shunyu Yao, Dian Yu, Jeffrey Zhao, Izhak Shafran, Thomas L. Griffiths, Yuan Cao, Karthik Narasimhan
2022
Chain-of-Thought prompting jako baza
2022
Self-Consistency - pierwsza eksploracja wielu sciezek
2023
Tree of Thoughts (Yao et al., NeurIPS 2023)
Punkt przełomowy
2024
Graph of Thoughts i nastepniki
Szczegóły techniczne

Hiperparametry (konfigurowalne osie)

Liczba kandydatów myśli (k)Wysoka

Liczba myśli generowanych na każdym kroku przez generator. Większe k = szersza eksploracja, ale liniowo wyższy koszt.

1Game of 24 (propose)
5-10Creative Writing (sample)
Szerokość belki (b)Krytyczna

Liczba stanów zachowywanych na każdym poziomie BFS. Klasyczny parametr beam search - kompromis między eksploracją a kosztem.

5Domyślne dla Game of 24 w paperze
1Greedy (degeneruje do CoT)
Liczba próbek ewaluacjiŚrednia

Liczba wywołań LLM do oceny każdego stanu (uśredniana dla redukcji wariancji).

3Domyślne w paperze
Głębokość drzewa (T)Wysoka

Maksymalna liczba kroków rozumowania w drzewie. Zależy od zadania (Game of 24: 3, Crosswords: znacznie głębiej).

3Game of 24
Strategia generatoraWysoka

Wybór strategii generowania myśli: sample (niezależne próbkowanie) lub propose (sekwencyjne propozycje w jednym promptcie).

sampleBogata przestrzeń myśli
proposeOgraniczona przestrzeń myśli
Strategia ewaluatoraWysoka

Wybór strategii oceny stanu: value (niezależna ocena) lub vote (głosowanie nad zbiorem).

valueGame of 24
voteCreative Writing

Złożoność obliczeniowa

Złożoność czasowa: O(k^T · c_LLM). Złożoność przestrzenna: O(b · T).

Wąskie gardło obliczeniowe

Wywołania LLM

Każdy krok ToT wymaga wielu wywolan LLM: generacja k kandydatow + ewaluacja n_evaluate_sample razy dla kazdego z b stanow. Latencja i koszt API rosna multiplikatywnie z parametrami przeszukiwania.

Zależy od
Branching factor (k)Beam width (b)Glebokosc drzewa (T)

Paradygmat wykonania

Tryb główny
conditional

Trajektoria obliczen jest warunkowa - zalezy od ocen stanow. Rozne wejscia produkuja rozne ksztalty drzew i rozne sciezki.

Wzorzec aktywacji
input_dependent
Mechanizm routingu

Algorytm przeszukiwania kieruje obliczenia do najobiecujacych galezi drzewa na podstawie scorow z ewaluatora. Nieobiecujace galezie sa przycinane (nie sa dalej rozszerzane).

Równoległość

Poziom równoległości
partially_parallel

W obrebie jednego poziomu BFS generacja k kandydatow i ich ewaluacja sa w pelni rownolegle. Miedzy poziomami przeszukiwanie pozostaje sekwencyjne.

Zakres
inferenceacross_tokens
Ograniczenia
!Poziom t+1 wymaga zakonczonych ewaluacji poziomu t (do wyboru top-b).

Wymagania sprzętowe

Podstawowe

ToT to ramka inferencyjna - dziala na dowolnym backendzie zdolnym uruchomic LLM (API, local GPU, TPU). Sam algorytm przeszukiwania jest CPU-bound i lekki.

Dobry fit

Lokalne uruchomienie ToT korzysta z GPU dla rownoleglego batchowania k kandydatow i b stanow w jednym wywolaniu inferencji LLM.