Architektura

Pixel Diffusion

2020AktywnyOpublikowano: 8 czerwca 2026Aktualizacja: 8 czerwca 2026Opublikowany

Wariant modelu dyfuzyjnego, w którym zaszumianie i odszumianie zachodzi bezpośrednio w przestrzeni pikseli. Stosowany w DDPM, ADM, Imagen, GLIDE, DALL·E 2.

Kluczowa innowacja

Prowadzenie pełnego procesu dyfuzji bezpośrednio na pikselach obrazu (bez kompresji do latentu), co daje najwyższą wierność pikselową kosztem dużego budżetu obliczeniowego i pamięciowego.

Kategoria

Architektura

Poziom abstrakcji

Wzorzec

Poziom operacji

Element architekturyModelInferencja

Zastosowania

Generacja obrazów z tekstu (Imagen, GLIDE, DALL·E 2 base)Klasowo-warunkowana generacja wysokiej jakości (ADM na ImageNet)Kaskadowa super-resolution diffusionGeneracja, w której wierność pikselowa jest krytycznaRestoration i odszumianie obrazówGeneracja medyczna i naukowa wymagająca braku artefaktów kompresji

Jak działa

Proces forward stopniowo dodaje gaussowski szum do obrazu przez T kroków: x_t = √(α̅_t)·x_0 + √(1−α̅_t)·ε, gdzie α̅_t maleje wraz z t. Sieć (U-Net) ε_θ(x_t, t) uczy się przewidywać dodany szum ε (parametryzacja ε-prediction), minimalizując ℒ = E[‖ε − ε_θ(x_t,t)‖²]. Trening odbywa się bezpośrednio na pikselach w pełnej rozdzielczości. Inferencja: start z czystego szumu x_T ~ 𝒩(0,I), iteracyjne odszumianie przez T (lub mniej, z DDIM/DPM-Solver) kroków bezpośrednio na pikselach. Warunkowanie tekstowe/klasowe przez cross-attention lub adaLN, wzmacniane przez classifier(-free) guidance. Dla wysokich rozdzielczości stosuje się kaskady: model bazowy generuje np. 64×64, a kolejne modele super-resolution diffusion podbijają do 256×256 i 1024×1024 (Imagen, Cascaded Diffusion).

Rozwiązany problem

Pixel-Space Diffusion rozwiązuje problem generacji wysokojakościowych, różnorodnych obrazów z dokładną wiernością pikselową bez utraty informacji wprowadzanej przez kompresję autoenkodera. Modeluje pełny rozkład danych w oryginalnej przestrzeni, unikając artefaktów rekonstrukcji VAE obecnych w podejściach latentnych.

Komponenty

Forward (noising) processStopniowe zaszumianie pikseli obrazu

Łańcuch Markowa dodający gaussowski szum: x_t = √(α̅_t)·x_0 + √(1−α̅_t)·ε. Ustalony, bez parametrów uczonych.

Denoising network (U-Net)Predykcja szumu w pełnej rozdzielczości pikseli

U-Net z attention i embeddingiem kroku t operujący bezpośrednio na pikselach. Koszt rośnie z rozdzielczością obrazu.

Oficjalna

Noise scheduleHarmonogram α̅_t

Linear (DDPM), cosine (Improved DDPM), zero-SNR. Określa tempo zaszumiania i jakość próbek.

Cascade / super-resolution stagesSkalowanie do wysokich rozdzielczości

Kolejne modele dyfuzji super-resolution podbijające rozdzielczość (Imagen: 64→256→1024). Łagodzi koszt bezpośredniej generacji w wysokiej rozdzielczości.

Oficjalna