Robocikowo>ROBOCIKOWO

Transformer od zera · Trening modelu językowego

Cross-entropy loss dla next-token prediction

Trening modelu językowego

Wprowadzenie

Zobaczysz, jak z logits modelu i targetów następnego tokenu powstaje cross-entropy loss oraz jak poprawnie przygotować kształty tensorów w PyTorch.