Wnioskowanie

Top-k

2018AktywnyOpublikowany

Metoda próbkowania tokenów ograniczająca wybór do k najbardziej prawdopodobnych tokenów.

Kluczowa innowacja

Ogranicza przestrzeń próbkowania tokenów do k najbardziej prawdopodobnych kandydatów, eliminując szum z ogona rozkładu przy minimalnym koszcie obliczeniowym.

Kategoria

Wnioskowanie

Poziom abstrakcji

Building block

Poziom operacji

Inferencja

Zastosowania

Generowanie tekstu — ograniczenie niespójnych tokenówGenerowanie kodu — niskie k dla precyzjiŁączenie z top-p dla dodatkowej kontroliGenerowanie muzyki i innych sekwencji tokenowychParametr API w większości LLM (OpenAI, Anthropic, Google)

Jak działa

Po softmax model sortuje tokeny malejąco według prawdopodobieństwa i zatrzymuje tylko k pierwszych. Pozostałe tokeny (pozycje k+1, k+2, ...) otrzymują prawdopodobieństwo 0. Rozkład jest renormalizowany, a token jest losowany z tego ograniczonego zbioru.

Rozwiązany problem

Pełne próbkowanie ze słownika uwzględnia tokeny o znikomym prawdopodobieństwie, co wprowadza niespójność. Top-k eliminuje "długi ogon" rozkładu, skupiając model na sensownych kandydatach.

Implementacja

Pułapki implementacyjne

Stała wartość K nie adaptuje się do różnych rozkładówŚrednia

K=50 działa dobrze gdy rozkład jest równomierny, ale przy ostrym rozkładzie (1 token dominuje) K=50 dodaje losowość z mało prawdopodobnych tokenów. Top-p jest bardziej adaptacyjne.

Top-k obcina długi ogon bez względu na masę prawdopodobieństwaŚrednia

Przy K=10 odcinamy wszystkie tokeny poza top-10 nawet jeśli token K+1 ma podobne prawdopodobieństwo co token K. Prowadzi to do sztucznych granic w rozkładzie próbkowania.

Top-k

Jak działa

Rozwiązany problem

Implementacja

Hiperparametry (konfigurowalne osie)

Paradygmat wykonania

Równoległość