Robocikowo>ROBOCIKOWO
Wnioskowanie

Top-k

2018AktywnyOpublikowany
Metoda próbkowania tokenów ograniczająca wybór do k najbardziej prawdopodobnych tokenów.
Kluczowa innowacja
Ogranicza przestrzeń próbkowania tokenów do k najbardziej prawdopodobnych kandydatów, eliminując szum z ogona rozkładu przy minimalnym koszcie obliczeniowym.
Kategoria
Wnioskowanie
Poziom abstrakcji
Building block
Poziom operacji
Inferencja
Zastosowania
Generowanie tekstu — ograniczenie niespójnych tokenówGenerowanie kodu — niskie k dla precyzjiŁączenie z top-p dla dodatkowej kontroliGenerowanie muzyki i innych sekwencji tokenowychParametr API w większości LLM (OpenAI, Anthropic, Google)

Jak działa

Po softmax model sortuje tokeny malejąco według prawdopodobieństwa i zatrzymuje tylko k pierwszych. Pozostałe tokeny (pozycje k+1, k+2, ...) otrzymują prawdopodobieństwo 0. Rozkład jest renormalizowany, a token jest losowany z tego ograniczonego zbioru.

Rozwiązany problem

Pełne próbkowanie ze słownika uwzględnia tokeny o znikomym prawdopodobieństwie, co wprowadza niespójność. Top-k eliminuje "długi ogon" rozkładu, skupiając model na sensownych kandydatach.

Implementacja

Pułapki implementacyjne
Stała wartość K nie adaptuje się do różnych rozkładówŚrednia

K=50 działa dobrze gdy rozkład jest równomierny, ale przy ostrym rozkładzie (1 token dominuje) K=50 dodaje losowość z mało prawdopodobnych tokenów. Top-p jest bardziej adaptacyjne.

Top-k obcina długi ogon bez względu na masę prawdopodobieństwaŚrednia

Przy K=10 odcinamy wszystkie tokeny poza top-10 nawet jeśli token K+1 ma podobne prawdopodobieństwo co token K. Prowadzi to do sztucznych granic w rozkładzie próbkowania.

Hiperparametry (konfigurowalne osie)

k (liczba tokenów)Krytyczna

Liczba tokenów w zbiorze kandydatów. k=1 to greedy decoding. Typowe wartości: 40–100.

1 (greedy)
40
100

Paradygmat wykonania

Tryb główny
conditional
Wzorzec aktywacji
top_k_selected

Równoległość

Poziom równoległości
sequential
Zakres
inference