Architektura AIZaawansowany

Transformer od zera

10 Rozdziałów40 Lekcji

Kurs będzie prowadził przez praktyczną implementację Transformera w PyTorch: od reprezentacji tokenów i mechanizmu uwagi po pełny model gotowy do trenowania. Działy i lekcje zostaną dodane w kolejnych etapach.

Rozdziały

MODUŁ 01

Fundamenty Transformera

0 / 4 · 0%

Poznasz powody powstania architektury Transformer, podstawowe pojęcia sekwencji i tokenów oraz różnice między encoderem, decoderem i modelami decoder-only.

MODUŁ 02

PyTorch dla architektur sekwencyjnych

0 / 4 · 0%

Nauczysz się praktycznych podstaw PyTorch potrzebnych do implementacji Transformera: kształtów tensorów, broadcastingu, przekształceń osi, modułów, masek, paddingu i pracy na GPU.

MODUŁ 03

Self-attention od zera

0 / 4 · 0%

Zbudujesz intuicję self-attention, poznasz role Query, Key i Value, wyprowadzisz scaled dot-product attention oraz przygotujesz się do implementacji pojedynczej głowicy w PyTorch.

MODUŁ 04

Multi-head attention

0 / 4 · 0%

Poznasz po co Transformer używa wielu głowic attention, jak działają projekcje Q, K i V dla wielu głowic, jak łączyć wyniki oraz jak zbudować moduł MultiHeadAttention w PyTorch.

MODUŁ 05

Blok Transformera

0 / 4 · 0%

Złożysz kompletny blok Transformera z połączeń rezydualnych, LayerNorm, sieci feed-forward i mechanizmu attention w stabilny wariant implementacyjny.

MODUŁ 06

Embeddingi i pozycja tokenów

0 / 4 · 0%

Poznasz sposób zamiany ID tokenów na wektory, dodawanie informacji o pozycji oraz maski potrzebne do obsługi paddingu i autoregresji.

MODUŁ 07

Decoder-only Transformer

0 / 4 · 0%

Złożysz mini-GPT z embeddingów, stosu bloków decoder-only, głowicy językowej i pełnego forward passu zwracającego logits oraz loss.

MODUŁ 08

Trening modelu językowego

0 / 4 · 0%

Przejdziesz od przygotowania sekwencji treningowych przez funkcję straty i pętlę treningową PyTorch aż do walidacji, checkpointów i podstawowych metryk modelu językowego.

MODUŁ 09

Generowanie tekstu

0 / 4 · 0%

Rozdział pokazuje, jak uruchomić model językowy w trybie generowania: od pętli autoregresyjnej przez sampling, KV cache i debugowanie jakości.

MODUŁ 10

Optymalizacje i współczesne warianty

0 / 4 · 0%

Rozdział pokazuje praktyczne rozszerzenia klasycznego Transformera: RoPE, FlashAttention, MQA/GQA oraz techniki dostrajania i skalowania współczesnych modeli.