Transformer od zera · Trening modelu językowego
Cross-entropy loss dla next-token prediction
Trening modelu językowego
Wprowadzenie
Zobaczysz, jak z logits modelu i targetów następnego tokenu powstaje cross-entropy loss oraz jak poprawnie przygotować kształty tensorów w PyTorch.