Robocikowo>ROBOCIKOWO

Kursy

Transformer od zera Logo

Architektura AIZaawansowany

Transformer od zera

10 Rozdziałów40 Lekcji

Kurs będzie prowadził przez praktyczną implementację Transformera w PyTorch: od reprezentacji tokenów i mechanizmu uwagi po pełny model gotowy do trenowania. Działy i lekcje zostaną dodane w kolejnych etapach.

Rozdziały

MODUŁ 01

Fundamenty Transformera

0 / 4 · 0%

Poznasz powody powstania architektury Transformer, podstawowe pojęcia sekwencji i tokenów oraz różnice między encoderem, decoderem i modelami decoder-only.

  1. 1.1Dlaczego powstał Transformer
  2. 1.2Sekwencje, tokeny i reprezentacje
  3. 1.3Encoder, decoder i modele decoder-only
  4. 1.4Przepływ danych przez Transformer
MODUŁ 02

PyTorch dla architektur sekwencyjnych

0 / 4 · 0%

Nauczysz się praktycznych podstaw PyTorch potrzebnych do implementacji Transformera: kształtów tensorów, broadcastingu, przekształceń osi, modułów, masek, paddingu i pracy na GPU.

  1. 2.1Tensory 3D: batch, sequence, features
  2. 2.2Broadcasting, reshape, transpose i view
  3. 2.3`nn.Module` i budowanie bloków modelu
  4. 2.4Maski, padding i operacje na GPU
MODUŁ 03

Self-attention od zera

0 / 4 · 0%

Zbudujesz intuicję self-attention, poznasz role Query, Key i Value, wyprowadzisz scaled dot-product attention oraz przygotujesz się do implementacji pojedynczej głowicy w PyTorch.

  1. 3.1Intuicja mechanizmu attention
  2. 3.2Query, Key, Value
  3. 3.3Scaled dot-product attention
  4. 3.4Implementacja jednej głowicy attention
MODUŁ 04

Multi-head attention

0 / 4 · 0%

Poznasz po co Transformer używa wielu głowic attention, jak działają projekcje Q, K i V dla wielu głowic, jak łączyć wyniki oraz jak zbudować moduł MultiHeadAttention w PyTorch.

  1. 4.1Po co wiele głowic attention
  2. 4.2Projekcje liniowe Q, K, V
  3. 4.3Łączenie głowic i projekcja wyjściowa
  4. 4.4Implementacja `MultiHeadAttention` w PyTorch
MODUŁ 05

Blok Transformera

0 / 4 · 0%

Złożysz kompletny blok Transformera z połączeń rezydualnych, LayerNorm, sieci feed-forward i mechanizmu attention w stabilny wariant implementacyjny.

  1. 5.1Residual connections
  2. 5.2LayerNorm: pre-norm i post-norm
  3. 5.3Feed Forward Network
  4. 5.4Kompletny blok Transformera
MODUŁ 06

Embeddingi i pozycja tokenów

0 / 4 · 0%

Poznasz sposób zamiany ID tokenów na wektory, dodawanie informacji o pozycji oraz maski potrzebne do obsługi paddingu i autoregresji.

  1. 6.1Token embeddings
  2. 6.2Positional encoding sinusoidalny
  3. 6.3Learned positional embeddings
  4. 6.4Padding mask i causal mask
MODUŁ 07

Decoder-only Transformer

0 / 4 · 0%

Złożysz mini-GPT z embeddingów, stosu bloków decoder-only, głowicy językowej i pełnego forward passu zwracającego logits oraz loss.

  1. 7.1Architektura mini-GPT
  2. 7.2Stos bloków Transformera
  3. 7.3Head językowy i logits
  4. 7.4Forward pass pełnego modelu
MODUŁ 08

Trening modelu językowego

0 / 4 · 0%

Przejdziesz od przygotowania sekwencji treningowych przez funkcję straty i pętlę treningową PyTorch aż do walidacji, checkpointów i podstawowych metryk modelu językowego.

  1. 8.1Dane treningowe i batchowanie sekwencji
  2. 8.2Cross-entropy loss dla next-token prediction
  3. 8.3Pętla treningowa w PyTorch
  4. 8.4Walidacja, checkpointy i metryki
MODUŁ 09

Generowanie tekstu

0 / 4 · 0%

Rozdział pokazuje, jak uruchomić model językowy w trybie generowania: od pętli autoregresyjnej przez sampling, KV cache i debugowanie jakości.

  1. 9.1Autoregresyjne generowanie tokenów
  2. 9.2Temperatura oraz próbkowanie top-k i top-p
  3. 9.3KV cache: intuicja i implementacja
  4. 9.4Debugowanie jakości generacji
MODUŁ 10

Optymalizacje i współczesne warianty

0 / 4 · 0%

Rozdział pokazuje praktyczne rozszerzenia klasycznego Transformera: RoPE, FlashAttention, MQA/GQA oraz techniki dostrajania i skalowania współczesnych modeli.

  1. 10.1RoPE zamiast klasycznych pozycji
  2. 10.2FlashAttention i wydajność mechanizmu attention
  3. 10.3MQA, GQA i redukcja kosztu inferencji
  4. 10.4LoRA, MoE i dalsze kierunki rozwoju