Logits
Jak działa
Ostatnia warstwa liniowa sieci neuronowej (tzw. głowica klasyfikacyjna lub językowa) produkuje wektor logitów o rozmiarze równym liczbie klas lub rozmiarowi słownika. Wartości te są nieograniczone (mogą być ujemne). Dopiero zastosowanie softmax lub sigmoid przekształca je w prawdopodobieństwa. W LLM dla każdego kroku generowania model produkuje wektor logitów rozmiaru |V| (rozmiar słownika).
Rozwiązany problem
W trakcie obliczania sieci neuronowej potrzebny jest wektor pośredni reprezentujący "siłę" każdego możliwego wyniku, zanim zostanie znormalizowany do prawdopodobieństwa. Logity pełnią tę rolę i umożliwiają manipulację wyjściem modelu (np. temperature scaling).
Implementacja
Logity o wartościach >100 mogą powodować overflow w exp() przy obliczaniu softmax. Rozwiązanie: log-sum-exp trick (odjęcie max logitu przed exp).
Logity to nieznormalizowane oceny — bez softmax nie sumują się do 1 i nie mają interpretacji probabilistycznej. Bezpośrednie porównywanie logitów między różnymi modelami lub batchami jest błędem.