
Deep LearningŚredniozaawansowany
Sieci neuronowe od podstaw do nowoczesnej AI
Kurs obejmuje pełny zakres tematyczny sieci neuronowych — od matematycznych fundamentów (algebra liniowa, rachunek różniczkowy, statystyka), przez mechanizm wstecznej propagacji błędów, po nowoczesne architektury głębokiego uczenia stosowane w przemyśle i badaniach. Uczestnik poznaje sieci w pełni połączone (MLP), konwolucyjne (CNN), rekurencyjne (RNN, LSTM, GRU) oraz mechanizmy uwagi i podstawy transformerów. Materiał osadzony jest w ekosystemie PyTorch — wszystkie implementacje kodowane od podstaw, a następnie refaktorowane do idiomatycznego kodu frameworka. Kurs zakłada znajomość Pythona na poziomie skryptowania oraz podstaw NumPy; nie zakłada wcześniejszej znajomości bibliotek ML ani zaawansowanej matematyki (potrzebne pojęcia wprowadzane są na bieżąco). Kurs nie pokrywa: modeli językowych (LLM), diffusion models, uczenia przez wzmacnianie, wdrożenia produkcyjnego (MLOps) ani zaawansowanych metod regularyzacji poza poziomem praktycznym. Absolwent kursu jest gotowy do samodzielnego projektowania eksperymentów z głębokimi sieciami, interpretowania wyników trenowania oraz dołączenia do projektów bazujących na PyTorch bez wsparcia seniora.
Rozdziały
MODUŁ 01Czym jest sieć neuronowa — mentalny model AI
Rozdział wprowadzający dla początkujących: czym jest AI, ML i deep learning, jak działa sztuczna sieć neuronowa, trzy paradygmaty uczenia oraz cykl życia projektu ML. Bez kodu, bez formuł — tylko intuicja i analogie z życia codziennego.
Czym jest sieć neuronowa — mentalny model AI
MODUŁ 02Matematyka i narzędzia: tensor, gradient, Python, NumPy
Fundament matematyczny przed PyTorchem: skalar, wektor, macierz i tensor z intuicją geometryczną, operacje na tensorach, pochodna i chain rule, gradient funkcji wielu zmiennych, gradient descent na prostej funkcji 1D oraz Python + NumPy jako most do PyTorcha. Bez epsilon-delta — tylko intuicja, kierunki i strzałki na mapie loss.
Matematyka i narzędzia: tensor, gradient, Python, NumPy
- 2.1Skalar, wektor, macierz, tensor — geometryczna intuicja
- 2.2Operacje na tensorach: dodawanie, mnożenie, mnożenie macierzy
- 2.3Pochodna i chain rule — intuicja kierunku największego wzrostu
- 2.4Gradient funkcji wielu zmiennych — strzałka na mapie loss
- 2.5Gradient descent na prostej funkcji — schodzenie z górki krok po kroku
- 2.6Python, NumPy i pierwszy tensor — most do PyTorcha
MODUŁ 03Pierwszy trening end-to-end — od danych do prognozy
Pierwszy dzialajacy klasyfikator: jak dane staja sie prognoza. Poznajesz dataset, loss, petle treningowa (forward → loss → gradient → update), ewaluacje i kodujesz klasyfikator XOR w czystym NumPy.
Pierwszy trening end-to-end — od danych do prognozy
MODUŁ 04Środowisko PyTorch i fundament tensorów
Podstawy pracy w PyTorch: tensory i ich operacje, autograd i computational graph, warstwy przez nn.Module oraz pełny cykl treningu z metrykami i pracą na GPU.
Środowisko PyTorch i fundament tensorów
MODUŁ 05Od neuronu do MLP: architektura i forward pass
Od pojedynczego perceptronu po wielowarstwową sieć MLP: funkcje aktywacji (sigmoid, ReLU, GELU, tanh), Universal Approximation Theorem, mechanika forward pass, funkcje straty MSE i Cross-Entropy oraz implementacja 2-warstwowej sieci od zera w czystym NumPy.
Od neuronu do MLP: architektura i forward pass
- 5.1Perceptron: wejście, waga, bias, aktywacja
- 5.2Funkcje aktywacji: sigmoid, ReLU, GELU, tanh — kiedy i dlaczego
- 5.3Universal Approximation Theorem — dlaczego nieliniowość jest konieczna
- 5.4Sieć wielowarstwowa (MLP) i forward pass krok po kroku
- 5.5Funkcje straty: MSE i Cross-Entropy — intuicja i wybór
- 5.6Implementacja 2-warstwowego MLP od zera (bez autograd, czysty NumPy)
MODUŁ 06Backpropagation — jak sieć się uczy
Algorytm propagacji wstecznej od matematycznego fundamentu po praktyczną implementację: reguła łańcucha jako rdzeń backpropu, symetria forward i backward pass, budowa autograd-a w stylu micrograd Karpathy, ręczne wyprowadzenie gradientów przez cross-entropy, warstwę liniową i tanh oraz wpływ inicjalizacji Xavier i He na zdrowy przepływ gradientu.
Backpropagation — jak sieć się uczy
- 6.1Chain rule i reguła łańcuchowa — fundament backpropagacji
- 6.2Forward pass vs backward pass — symetria i przepływ gradientu
- 6.3Budujemy micrograd: Value, backward(), wizualizacja grafu (Karpathy)
- 6.4Backprop Ninja: ręczny backward przez cross-entropy, linear, tanh i batch-norm
- 6.5Inicjalizacja wag: Xavier i He — jak start decyduje o gradient flow
MODUŁ 07Trening w praktyce: optymalizatory i diagnostyka
Praktyczna strona treningu sieci neuronowych: geometria krajobrazu strat i mini-batch SGD, momentum i Adam jako rodzina adaptacyjnych optymalizatorów, harmonogramy learning rate (step decay, cosine annealing, warmup), systematyczna diagnostyka treningu (overfit single batch, sanity-check loss na inicjalizacji), histogramy gradientów, problem dead neurons i gradient clipping oraz klasyczny bias-variance tradeoff jako framework diagnozy underfittingu i overfittingu.
Trening w praktyce: optymalizatory i diagnostyka
- 7.1Gradient descent geometrycznie: loss surface, learning rate i mini-batch SGD
- 7.2Momentum i Adam: adaptacyjne learning rates i kiedy ich używać
- 7.3LR schedules: step decay, cosine annealing, warmup
- 7.4Systematyczna diagnostyka: overfit single batch, init loss, learning curves
- 7.5Histogramy gradientów, dead neurons i gradient clipping
- 7.6Bias-variance tradeoff i diagnoza underfitting vs overfitting
MODUŁ 08Regularyzacja — jak uniknąć przeuczenia
Regularyzacja jako zestaw technik utrzymujących generalizację modelu: dropout jako stochastyczne wygaszanie neuronów z różnym zachowaniem w trybie train vs eval, weight decay i L2 jako kara za duże wagi, batch normalization rozwiązująca problem internal covariate shift, layer normalization jako alternatywa dla małych batchy i sekwencji o zmiennej długości oraz early stopping wraz z systematycznym monitorowaniem treningu (krzywe loss, podział train/val, kryteria stopu).
Regularyzacja — jak uniknąć przeuczenia
MODUŁ 09Sieci konwolucyjne (CNN)
Sieci konwolucyjne jako fundament współczesnego computer vision: splot 2D z filtrem jako detektorem cech, znaczenie paddingu, stride i equiwariancji translacyjnej; pooling i przepływ wymiarów przestrzennych przez kolejne warstwy; ewolucja architektur od AlexNet przez VGG do ResNet i odpowiedź na pytanie co i dlaczego się zmieniło; skip connections oraz bloki rezydualne rozwiązujące problem degradacji w bardzo głębokich sieciach (He et al. 2015); transfer learning jako ekstrakcja cech i fine-tuning pretrenowanych modeli.
Sieci konwolucyjne (CNN)
- 9.1Splot 2D: filtr jako detektor cech, padding, stride, equiwariancja
- 9.2Pooling, mapy cech i przepływ wymiarów przez sieć
- 9.3Ewolucja architektur: AlexNet → VGG → ResNet — co się zmieniło i dlaczego
- 9.4Skip connections i bloki rezydualne — rozwiązanie problemu degradacji (He 2015)
- 9.5Transfer learning — ekstrakcja cech vs fine-tuning (jak korzystać z ImageNet)
MODUŁ 10Interpretacja i wizualizacja sieci neuronowych
Jak otworzyć czarną skrzynkę głębokiej sieci: wizualizacja wyuczonych filtrów i map aktywacji w CNN (Zeiler & Fergus 2014); GradCAM jako gradientowo-ważona mapa istotności klasy (Selvaraju et al. 2017); adversarial examples i FGSM jako dowód kruchości decyzji modelu (Goodfellow et al. 2015); profilowanie modelu — liczba parametrów, FLOPs, latencja inferencji jako konkretne metryki kosztu obliczeniowego.
Interpretacja i wizualizacja sieci neuronowych
MODUŁ 11Sekwencje: RNN, LSTM i GRU
Dlaczego sieci feedforward nie wystarczają dla danych sekwencyjnych i jak rekurencja rozwiązuje ten problem. Klasyczna RNN i jej trening przez BPTT (backpropagation through time, Werbos 1990). Patologia gradientów w głębokich rozwinięciach czasu — vanishing i exploding (Bengio et al. 1994). LSTM jako odpowiedź na vanishing gradient z bramkami zapominania, wejścia i wyjścia (Hochreiter & Schmidhuber 1997). GRU jako uproszczona alternatywa LSTM z mniejszą liczbą bramek (Cho et al. 2014).
Sekwencje: RNN, LSTM i GRU
MODUŁ 12Mechanizm uwagi i Transformer
Mechanizm uwagi to wynalazek, który zastąpił rekurencję jako podstawę modelowania sekwencji i dał początek architekturze Transformera (Vaswani et al. 2017). Rozdział omawia motywację — ograniczenia RNN przy długoterminowych zależnościach (vanishing gradients, brak paralelizmu) — następnie scaled dot-product attention z trójką Query/Key/Value, multi-head attention i positional encoding, pełny blok encodera (FFN, residual, Layer Norm), tokenizację BPE oraz implementację mini-Transformera od zera w PyTorch.
Mechanizm uwagi i Transformer
- 12.1Motywacja — ograniczenia RNN i długoterminowe zależności
- 12.2Self-attention — Query, Key, Value i scaled dot-product attention
- 12.3Multi-head attention i positional encoding
- 12.4Architektura Transformera — blok encodera, FFN, LayerNorm, residual
- 12.5Tokenizacja i BPE — dlaczego tekst nie jest znakami ani słowami
- 12.6Implementacja mini-Transformera od zera w PyTorch