Transformer od zera · PyTorch dla architektur sekwencyjnych
Maski, padding i operacje na GPU
PyTorch dla architektur sekwencyjnych
Wprowadzenie
Ta lekcja łączy praktyczne elementy potrzebne do trenowania modeli sekwencyjnych: padding, maski attention, causal mask, device, dtype i bezpieczne przenoszenie danych na GPU.