W procesie forward dodawany jest stopniowo szum gaussowski do danych przez wiele kroków. Model neuronowy uczy się odwracać ten proces — przewidywać i usuwać szum krok po kroku. W generowaniu startuje od czystego szumu i iteracyjnie go usuwa.
Generowanie wysokiej jakości obrazów, dźwięku i innych danych ciągłych było trudne dla wcześniejszych modeli generatywnych (GAN, VAE). Modele dyfuzji osiągają lepszą jakość i stabilność treningu.
Oficjalna
Oficjalna
Oficjalna
Domyślny proces odwrotny DDPM wymaga T=1000 sekwencyjnych kroków odszumiania, każdy wymagający pełnego przebiegu sieci, co czyni inferencję rzędami wielkości wolniejszą od modeli jednoprzebiegowych takich jak GAN.
Liniowy harmonogram szumu z oryginalnego DDPM może zbyt agresywnie niszczyć sygnał danych na wczesnych krokach dla obrazów wysokiej rozdzielczości, prowadząc do nieoptymalnego trenowania.
Wysokie wagi classifier-free guidance (CFG) poprawiają zgodność z warunkiem, ale powodują próbki spoza rozkładu, skutkując przesyconymi lub artefaktowymi wyjściami z powodu niezgodności trenowania i inferencji.
Modele dyfuzyjne zazwyczaj wymagają bardzo długich sesji treningowych (setki tysięcy do milionów kroków gradientu) do osiągnięcia wysokiej jakości próbek, szczególnie przy wysokich rozdzielczościach.
Złożoność czasowa: O(T · C_net) per sample at inference. Złożoność przestrzenna: O(D) for latent state; O(P) for model parameters.
Każdy krok odszumiania stosuje pełną sieć do całego tensora danych. W podstawowym koncepcie modelu dyfuzyjnego nie ma routingu ekspertów ani warunkowej rzadkości aktywacji.
Trenowanie jest w pełni równoległe: każda próbka używa losowo wybranego kroku t, więc partie niezależnych przykładów treningowych mogą być przetwarzane równolegle. Inferencja sekwencyjna dla pojedynczej próbki, ale wiele próbek można generować równolegle (równoległość przepustowości). Podejścia takie jak iteracja Picarda (ParaDiGMS) eksplorują kompromis między obliczeniami a opóźnieniem.
Kontroluje liczbę kroków łańcucha Markowa w kierunku przód i tył. Większe T zazwyczaj poprawia jakość próbek, lecz liniowo zwiększa koszt wnioskowania.
Definiuje harmonogram wariancji {β1, ..., βT}. Najczęściej stosowane warianty: liniowy (oryginalny DDPM), kosinusowy (Improved DDPM), sigmoidalny.
Czy sieć odszumiająca przewiduje szum ε (parametryzacja epsilon, standardowa w DDPM), oryginalne dane x0, czy funkcję score.
Architektura sieci neuronowej parametryzującej proces odwrotny. Wpływa na pojemność modelu, szybkość uczenia oraz generalizację.
Trenowanie i inferencja modeli dyfuzyjnych obejmują duże partie gęstych operacji zmiennoprzecinkowych (sploty, uwaga) na tensorach w rozdzielczości obrazu, co dobrze mapuje się na równoległość GPU Tensor Core. Trenowanie przy wysokich rozdzielczościach wymaga znaczącej pamięci VRAM.
TPU są używane do trenowania dużych modeli dyfuzyjnych (np. Imagen przez Google Brain) i obsługują gęste operacje macierzowe wymagane przez backbony U-Net i Transformer przez JAX/Flax.