Model jest uruchamiany N razy równolegle (lub sekwencyjnie z różnymi seed/temperaturą). Wyniki są oceniane przez zewnętrzny scorer (reward model, weryfikator, majority voting lub best-of-N heuristic). Najwyżej oceniona odpowiedź jest zwracana użytkownikowi.
Standardowe next-token sampling daje pojedynczą odpowiedź, której jakość jest ograniczona. Parallel TTC pozwala "kupić" wyższą dokładność kosztem czasu i kosztu obliczeniowego.
Majority voting działa dla odpowiedzi kategorycznych, ale dla generacji otwartej (eseje, kod) nie ma prostej metody agregacji. Best-of-N wymaga silnego weryfikatora/rewardu.
N równoległych próbkowań = N× koszt inferencji. Przy wysokich N zysk jakości saturuje, a koszt rośnie — trzeba empirycznie wyznaczyć punkt optymalnego stosunku koszt/jakość.
Liczba kandydatów (N) może być ustalona lub skalować się adaptacyjnie z trudnością zapytania.
Każdy kandydat może być generowany niezależnie na osobnym GPU/TPU.
Każdy kandydat może być generowany na osobnym GPU; architektura oparta na kartach NVLink (np. NVIDIA GB200 NVL72) pozwala na efektywne równolegowanie.