Proces forward stopniowo dodaje gaussowski szum do obrazu przez T kroków: x_t = √(α̅_t)·x_0 + √(1−α̅_t)·ε, gdzie α̅_t maleje wraz z t. Sieć (U-Net) ε_θ(x_t, t) uczy się przewidywać dodany szum ε (parametryzacja ε-prediction), minimalizując ℒ = E[‖ε − ε_θ(x_t,t)‖²]. Trening odbywa się bezpośrednio na pikselach w pełnej rozdzielczości. Inferencja: start z czystego szumu x_T ~ 𝒩(0,I), iteracyjne odszumianie przez T (lub mniej, z DDIM/DPM-Solver) kroków bezpośrednio na pikselach. Warunkowanie tekstowe/klasowe przez cross-attention lub adaLN, wzmacniane przez classifier(-free) guidance. Dla wysokich rozdzielczości stosuje się kaskady: model bazowy generuje np. 64×64, a kolejne modele super-resolution diffusion podbijają do 256×256 i 1024×1024 (Imagen, Cascaded Diffusion).
Pixel-Space Diffusion rozwiązuje problem generacji wysokojakościowych, różnorodnych obrazów z dokładną wiernością pikselową bez utraty informacji wprowadzanej przez kompresję autoenkodera. Modeluje pełny rozkład danych w oryginalnej przestrzeni, unikając artefaktów rekonstrukcji VAE obecnych w podejściach latentnych.
Łańcuch Markowa dodający gaussowski szum: x_t = √(α̅_t)·x_0 + √(1−α̅_t)·ε. Ustalony, bez parametrów uczonych.
U-Net z attention i embeddingiem kroku t operujący bezpośrednio na pikselach. Koszt rośnie z rozdzielczością obrazu.
Oficjalna
Linear (DDPM), cosine (Improved DDPM), zero-SNR. Określa tempo zaszumiania i jakość próbek.
Kolejne modele dyfuzji super-resolution podbijające rozdzielczość (Imagen: 64→256→1024). Łagodzi koszt bezpośredniej generacji w wysokiej rozdzielczości.
Oficjalna
U-Net na pełnej rozdzielczości przez setki kroków jest 1-2 rzędy droższy niż Latent Diffusion.
Wysoka skala guidance powoduje przesycone, przepalone obrazy.
Artefakty z modelu bazowego są wzmacniane przez kolejne stopnie super-resolution.
Sohl-Dickstein i in. wprowadzają pierwotną ideę modeli dyfuzyjnych w pikselach.
Ho i in. ustanawiają prosty, skuteczny przepis treningowy (ε-prediction, U-Net), uruchamiając erę dyfuzji.
Nichol & Dhariwal wprowadzają cosine schedule i uczenie wariancji, poprawiając log-likelihood.
Dhariwal & Nichol z classifier guidance przewyższają GAN-y na ImageNet, ustanawiając SoTA pixel-space.
OpenAI stosuje pixel-space diffusion z CFG do warunkowania tekstowego (DALL·E 2 = prior + unCLIP decoder).
Google używa T5 + kaskady 64→256→1024 z dynamic thresholding, osiągając wysoką jakość fotorealistyczną.
LDM/Stable Diffusion pokazuje, że dyfuzja w latencie jest 1-2 rzędy tańsza przy zachowaniu jakości, ograniczając rolę czystego pixel-space.
Długość łańcucha (1000 w treningu, 25-250 w inferencji z DDIM/DPM-Solver).
Linear / cosine / zero-SNR — wpływa na jakość i kontrast.
Rozdzielczość modelu bazowego (np. 64×64 w Imagen przed kaskadą).
Liczba modeli super-resolution w kaskadzie.
Siła classifier-free guidance (Imagen używa dynamic thresholding przy wysokim w).
Cała sieć U-Net jest aktywna na każdym kroku odszumiania na pełnej rozdzielczości.
Trening jest w pełni równoległy w batchu. Inferencja wymaga sekwencyjnych kroków odszumiania, każdy będący gęstym forward passem U-Net na pełnej rozdzielczości — dużo droższym niż w Latent Diffusion.
Konwolucje i attention U-Net pasują do tensor cores, ale pełna rozdzielczość wymaga dużej pamięci HBM — preferowane A100/H100.
Imagen trenowany na TPU; kaskady i konwolucje dobrze się skalują na TPU pods.