Generator G(z;θ_G) przekształca wektor szumu z (zwykle 𝒩(0,I) lub U(−1,1)) w próbkę. Dyskryminator D(x;θ_D) zwraca prawdopodobieństwo, że x jest prawdziwe. Trening naprzemienny: (1) krok D — maksymalizacja log D(x) + log(1 − D(G(z))) na minibatchu prawdziwych i fałszywych próbek (klasyfikacja binarna); (2) krok G — minimalizacja log(1 − D(G(z))) lub, w praktyce, maksymalizacja log D(G(z)) (non-saturating loss, lepsze gradienty). Gradient płynie przez D do G. Warianty zmieniają funkcję straty i regularyzację: WGAN (Wasserstein distance + weight clipping), WGAN-GP (gradient penalty), LSGAN (least squares), hinge loss, spectral normalization. Warianty architektoniczne: DCGAN (konwolucje), conditional GAN (warunek c na wejściu obu sieci), Pix2Pix/CycleGAN (image-to-image), StyleGAN (style-based generator z mappingiem latentu w), BigGAN (duża skala + self-attention). Trening jest delikatny — wymaga balansu mocy G i D.
Wcześniejsze modele generatywne (VAE) produkowały rozmyte próbki przez uśredniający charakter strat rekonstrukcji, a modele jawnej gęstości były obliczeniowo kosztowne. GAN omija modelowanie jawnej gęstości — uczy się rozkładu pośrednio przez sygnał z dyskryminatora — co prowadzi do ostrych, realistycznych próbek i szybkiego, jednoprzejściowego próbkowania.
Sieć przekształcająca wektor latentny z w próbkę G(z). Trenowana, by oszukać dyskryminator. W StyleGAN poprzedzona siecią mapującą z → w.
Klasyfikator binarny (lub krytyk w WGAN zwracający skalar) dostarczający sygnał uczący generatorowi. Po treningu zwykle odrzucany.
Funkcja straty definiująca grę: vanilla (BCE), non-saturating, Wasserstein, least squares, hinge. Wybór silnie wpływa na stabilność.
Oficjalna
Rozkład wejściowy (zwykle 𝒩(0,I)). W StyleGAN przekształcany w przestrzeń stylu W o lepszych właściwościach disentanglement.
Generator produkuje ograniczoną różnorodność próbek (lub jedną), ignorując część rozkładu danych.
Gra minimax może nie zbiegać — straty oscylują, jakość się waha; balans mocy G/D jest delikatny.
Gdy dyskryminator jest zbyt dobry, gradient dla generatora zanika (log(1−D(G(z)))→0).
Brak jawnej wiarygodności utrudnia ocenę; metryki (FID, IS) są niedoskonałe i wrażliwe.
Goodfellow i in. wprowadzają grę minimax dwóch sieci jako nowy paradygmat generatywny.
Radford i in. ustalają wzorce architektoniczne dające stabilny trening obrazowych GAN.
Arjovsky i in. + Gulrajani i in. wprowadzają odległość Wassersteina i gradient penalty, łagodząc mode collapse.
Isola i in. + Zhu i in. umożliwiają translację obrazów (sparowaną i niesparowaną).
Karras i in. (progresywny wzrost) i Brock i in. (duża skala + self-attention) osiągają wysokorozdzielcze, fotorealistyczne próbki.
Karras i in. wprowadzają przestrzeń stylu W i kontrolę cech, ustanawiając SoTA w generacji twarzy.
Dhariwal & Nichol pokazują, że modele dyfuzyjne przewyższają GAN-y jakością i różnorodnością, kończąc erę dominacji GAN.
Adversarial loss pozostaje komponentem VAE w dyfuzji; GAN-y dominują w vocoderach audio i jednoprzejściowej super-resolution oraz w distillacji dyfuzji (np. adversarial distillation).
Vanilla/non-saturating / Wasserstein / LSGAN / hinge — krytyczne dla stabilności.
Wymiar wektora szumu z (typowo 100-512).
Liczba kroków dyskryminatora na krok generatora (WGAN-GP używa 5:1).
Spectral norm, gradient penalty, R1, weight clipping — stabilizują trening.
DCGAN / StyleGAN / BigGAN / Pix2Pix / CycleGAN — determinuje zdolności i koszt.
Generator i dyskryminator są w pełni aktywne; po treningu inferencja używa tylko generatora (jeden forward pass).
Inferencja to pojedynczy forward pass generatora — w pełni równoległy i szybki (bez iteracyjnego odszumiania jak w dyfuzji). Trening równoległy w batchu, ale naprzemienne kroki G/D wprowadzają zależność sekwencyjną między aktualizacjami.
Konwolucyjne G i D są idealne dla tensor cores. StyleGAN/BigGAN trenowane na klastrach GPU; inferencja generatora to szybki pojedynczy forward pass.
BigGAN trenowany na TPU; konwolucje i attention dobrze się mapują.