Transformer od zera · Decoder-only Transformer
Forward pass pełnego modelu
Decoder-only Transformer
Wprowadzenie
Przejdziesz przez pełny forward mini-GPT: wejściowe ID tokenów, embeddingi, pozycje, blokowy stos, normalizację, logits i opcjonalne liczenie lossu.