Top-p
Jak działa
Po obliczeniu softmax model sortuje tokeny malejąco według prawdopodobieństwa. Następnie wybiera minimalny prefiks tokenów, których skumulowane prawdopodobieństwo ≥ p (np. p=0.9). Tylko tokeny z tego "jądra" są brane pod uwagę przy losowaniu. Tokeny spoza jądra otrzymują prawdopodobieństwo 0.
Rozwiązany problem
Greedy decoding daje monotonne teksty, a temperature-only sampling może generować niespójne tokeny. Top-p balansuje kreatywność i jakość przez dynamiczne ograniczenie przestrzeni próbkowania do "jądra" (nucleus) rozkładu.
Implementacja
Stosowanie top-p=0.9 i top-k=50 jednocześnie: najpierw top-k redukuje do 50 tokenów, potem top-p do ~90% masy — w efekcie przestrzeń jest podwójnie obcięta, co może wyeliminować poprawne tokeny.
Przy p=0.99 i płaskim rozkładzie (np. 1000 tokenów o podobnym prawdopodobieństwie) nucleus zawiera ~990 tokenów — praktycznie random sampling bez filtrowania.
Hiperparametry (konfigurowalne osie)
Próg skumulowanego prawdopodobieństwa. Wyższe p → więcej tokenów w jądrze → większa różnorodność.