Architektura

Logits

1944AktywnyOpublikowany

Nieznormalizowane wyjście ostatniej warstwy sieci neuronowej przed softmax.

Kluczowa innowacja

Surowe, nieznormalizowane wyjście sieci neuronowej przed zastosowaniem funkcji aktywacji — kluczowy wektor pośredni do obliczenia prawdopodobieństw klas lub tokenów.

Kategoria

Architektura

Poziom abstrakcji

Primitive

Poziom operacji

WarstwaInferencja

Zastosowania

Generowanie tekstu w LLM — wejście do sampleraKlasyfikacja — wejście do softmaxTemperature scaling i inne techniki kalibracjiLogit lens — interpretacja warstw pośrednich transformeraKnowledge distillation — uczenie na miękkich targetach

Jak działa

Ostatnia warstwa liniowa sieci neuronowej (tzw. głowica klasyfikacyjna lub językowa) produkuje wektor logitów o rozmiarze równym liczbie klas lub rozmiarowi słownika. Wartości te są nieograniczone (mogą być ujemne). Dopiero zastosowanie softmax lub sigmoid przekształca je w prawdopodobieństwa. W LLM dla każdego kroku generowania model produkuje wektor logitów rozmiaru |V| (rozmiar słownika).

Rozwiązany problem

W trakcie obliczania sieci neuronowej potrzebny jest wektor pośredni reprezentujący "siłę" każdego możliwego wyniku, zanim zostanie znormalizowany do prawdopodobieństwa. Logity pełnią tę rolę i umożliwiają manipulację wyjściem modelu (np. temperature scaling).

Implementacja

Pułapki implementacyjne

Numerical overflow przy bardzo dużych logitachŚrednia

Logity o wartościach >100 mogą powodować overflow w exp() przy obliczaniu softmax. Rozwiązanie: log-sum-exp trick (odjęcie max logitu przed exp).

Błędna interpretacja logitów jako prawdopodobieństwŚrednia

Logity to nieznormalizowane oceny — bez softmax nie sumują się do 1 i nie mają interpretacji probabilistycznej. Bezpośrednie porównywanie logitów między różnymi modelami lub batchami jest błędem.