
Kurs będzie prowadził przez praktyczną implementację Transformera w PyTorch: od reprezentacji tokenów i mechanizmu uwagi po pełny model gotowy do trenowania. Działy i lekcje zostaną dodane w kolejnych etapach.

Kurs będzie prowadził przez praktyczną implementację Transformera w PyTorch: od reprezentacji tokenów i mechanizmu uwagi po pełny model gotowy do trenowania. Działy i lekcje zostaną dodane w kolejnych etapach.
Poznasz powody powstania architektury Transformer, podstawowe pojęcia sekwencji i tokenów oraz różnice między encoderem, decoderem i modelami decoder-only.
Nauczysz się praktycznych podstaw PyTorch potrzebnych do implementacji Transformera: kształtów tensorów, broadcastingu, przekształceń osi, modułów, masek, paddingu i pracy na GPU.
Zbudujesz intuicję self-attention, poznasz role Query, Key i Value, wyprowadzisz scaled dot-product attention oraz przygotujesz się do implementacji pojedynczej głowicy w PyTorch.
Poznasz po co Transformer używa wielu głowic attention, jak działają projekcje Q, K i V dla wielu głowic, jak łączyć wyniki oraz jak zbudować moduł MultiHeadAttention w PyTorch.
Złożysz kompletny blok Transformera z połączeń rezydualnych, LayerNorm, sieci feed-forward i mechanizmu attention w stabilny wariant implementacyjny.
Poznasz sposób zamiany ID tokenów na wektory, dodawanie informacji o pozycji oraz maski potrzebne do obsługi paddingu i autoregresji.
Złożysz mini-GPT z embeddingów, stosu bloków decoder-only, głowicy językowej i pełnego forward passu zwracającego logits oraz loss.
Przejdziesz od przygotowania sekwencji treningowych przez funkcję straty i pętlę treningową PyTorch aż do walidacji, checkpointów i podstawowych metryk modelu językowego.
Rozdział pokazuje, jak uruchomić model językowy w trybie generowania: od pętli autoregresyjnej przez sampling, KV cache i debugowanie jakości.
Rozdział pokazuje praktyczne rozszerzenia klasycznego Transformera: RoPE, FlashAttention, MQA/GQA oraz techniki dostrajania i skalowania współczesnych modeli.