Inferencja startuje od początkowego zestawu równoległych ścieżek rozumowania (chain-of-thought) wygenerowanych przez bazowy model rozumujący. W ustalonych odstępach (probing checkpoints) algorytm ocenia bieżący stan ścieżek: porównuje ich częściowe wyniki i odpowiedzi pośrednie, aby wyliczyć miarę konsensusu (np. zgodność dominującej odpowiedzi). Jeśli konsensus przekracza próg, generacja zostaje wcześnie zakończona i jako odpowiedź końcowa wybierana jest większościowa konkluzja. W przeciwnym razie ścieżki, które istotnie odbiegają od formującego się konsensusu, są odsiewane (pruning), a pozostałe są dalej rozwijane na osi głębokości. Cykl probowania powtarza się aż do osiągnięcia konsensusu lub wyczerpania budżetu. Mechanizm jest training-free i nakłada się na istniejący model bez modyfikacji wag.
Klasyczne metody równoległego rozumowania (self-consistency, best-of-N) używają stałego budżetu liczby ścieżek i stałej długości rozumowania niezależnie od trudności zadania. To prowadzi do dwóch typów marnotrawstwa: nadmiernego liczenia łatwych przykładów (gdy konsensus zapadłby już po kilku ścieżkach) oraz rozwijania ścieżek zbłąkanych, które jedynie zaszumiają głosowanie większościowe. Parallel-Probe rozwiązuje ten problem, adaptując budżet w obu wymiarach – szerokości i głębokości – na podstawie sygnału z samego procesu rozumowania.
Jeśli pierwsze probowanie odbywa się zanim ścieżki rozwiną realne kroki rozumowania, sygnał konsensusu jest słaby i może prowadzić do błędnego wczesnego zatrzymania lub agresywnego pruningu poprawnych ścieżek.
Niski próg konsensusu sprawia, że algorytm zatrzymuje się przy zgodności iluzorycznej, gdy większość ścieżek zbiegła do tej samej błędnej odpowiedzi.
Pruning oparty wyłącznie na odbiegającej trajektorii pośredniej może odciąć ścieżkę, która używa innej, ale poprawnej metody rozwiązania.
Wang et al. wprowadzają self-consistency: zamiast jednej ścieżki CoT generuje się wiele i wybiera odpowiedź większościową — fundament TTS, na którym Parallel-Probe później adaptacyjnie nadbudowuje.
Pierwsza wersja preprintu wprowadza dwuwymiarowe probowanie (szerokość + głębokość), konsensusowe wczesne zatrzymanie i deviation-based pruning, demonstrując lepszy front Pareto względem self-consistency.
Liczba równoległych ścieżek rozumowania uruchamianych na starcie inferencji (oś szerokości).
Maksymalna długość rozwijania pojedynczej ścieżki w tokenach lub krokach (oś głębokości).
Co ile kroków/tokenów algorytm sprawdza konsensus między ścieżkami.
Poziom zgodności między ścieżkami, przy którym uruchamiane jest wczesne zatrzymanie.
Próg, powyżej którego ścieżka jest odsiewana jako odbiegająca od konsensusu.
Tryb conditional / dynamic: liczba aktywnie rozwijanych ścieżek oraz długość ich rozwijania zależą od sygnału konsensusu wyliczonego w czasie inferencji.
Sam rdzeń metody jest masowo równoległy — niezależne ścieżki rozumowania mogą być wykonywane na osobnych workerach inference. Punkty probowania wprowadzają lekką synchronizację globalną w celu policzenia konsensusu i ewentualnego pruningu.
Niezależne ścieżki rozumowania mapują się naturalnie na batchowe wykonanie LLM-a na GPU; probowanie i pruning to operacje lekkie obok kosztu samej generacji.