Top-k
Jak działa
Po softmax model sortuje tokeny malejąco według prawdopodobieństwa i zatrzymuje tylko k pierwszych. Pozostałe tokeny (pozycje k+1, k+2, ...) otrzymują prawdopodobieństwo 0. Rozkład jest renormalizowany, a token jest losowany z tego ograniczonego zbioru.
Rozwiązany problem
Pełne próbkowanie ze słownika uwzględnia tokeny o znikomym prawdopodobieństwie, co wprowadza niespójność. Top-k eliminuje "długi ogon" rozkładu, skupiając model na sensownych kandydatach.
Implementacja
K=50 działa dobrze gdy rozkład jest równomierny, ale przy ostrym rozkładzie (1 token dominuje) K=50 dodaje losowość z mało prawdopodobnych tokenów. Top-p jest bardziej adaptacyjne.
Przy K=10 odcinamy wszystkie tokeny poza top-10 nawet jeśli token K+1 ma podobne prawdopodobieństwo co token K. Prowadzi to do sztucznych granic w rozkładzie próbkowania.
Hiperparametry (konfigurowalne osie)
Liczba tokenów w zbiorze kandydatów. k=1 to greedy decoding. Typowe wartości: 40–100.