Robocikowo>ROBOCIKOWO
Trening

DMD2

2024AktywnySzkic
DMD2 to algorytm destylacji modeli dyfuzyjnych do generatorów kilkukrokowych poprzez dopasowanie dystrybucji oraz wsparcie GAN, eliminujący regression loss z oryginalnego DMD.
Kluczowa innowacja
Destyluje wielokrokowy model dyfuzyjny do generatora 1–4 krokowego bez kosztownej regresji na wygenerowanym datasecie nauczyciela, dzięki two time-scale update rule (TTUR) oraz dodatkowemu sygnałowi GAN-owemu od prawdziwych danych.
Kategoria
Trening
Poziom abstrakcji
Pattern
Zastosowania
Destylacja Stable Diffusion XL do 1–4 krokówGeneracja obrazów real-timeMobilne aplikacje text-to-imageEdycja obrazów z niską latencjąSkalowanie inference text-to-image w produkcji

Jak działa

Pipeline DMD2 wykorzystuje trzy sieci: (1) zamrożony nauczyciel — pretrenowany model dyfuzyjny (np. SDXL) zapewniający „real score” przybliżający gradient logarytmu prawdziwej dystrybucji; (2) generator G — trenowany do mapowania szumu na obraz w 1–4 krokach; (3) fake score model — uczony równolegle do śledzenia dystrybucji wytwarzanej przez G. Strata destylacji to KL divergence między dystrybucją G a dystrybucją prawdziwych obrazów, której gradient względem parametrów G jest równy (score_fake − score_real) przepropagowane przez generator. TTUR aktualizuje fake score model co krok, a generator co kilka kroków — co zapobiega niestabilności. Dodatkowo trenowany jest dyskryminator GAN-owy odróżniający próbki G od prawdziwych obrazów; jego sygnał dodaje straty adversarialnej poprawiającej szczegóły. Cała procedura nie wymaga wygenerowanego z nauczyciela datasetu, co odróżnia DMD2 od DMD v1.

Rozwiązany problem

Wielokrokowe modele dyfuzyjne (DDIM/DDPM) wymagają 25–50 ewaluacji sieci na obraz, co czyni je drogimi w inference i niepraktycznymi dla aplikacji real-time. Wcześniejsze metody destylacji (Progressive Distillation, Consistency Models, DMD v1) albo gubiły jakość, albo wymagały drogiej fazy regresji na wygenerowanym datasecie nauczyciela. DMD2 rozwiązuje oba problemy: utrzymuje jakość bliską nauczycielowi przy 1–4 krokach, eliminuje wstępną generację datasetu, i jest bardziej stabilny w treningu dzięki TTUR.

Kluczowe mechanizmy

Distribution Matching loss (KL divergence)
Two Time-scale Update Rule (TTUR)
Auxiliary GAN loss przeciw prawdziwym danym
Multi-step generator (separate noise level heads)
Eliminacja regression loss

Mocne strony i ograniczenia

Mocne strony
1–4 kroków inference vs 25–50 dla DDIM
Jakość bliska nauczycielowi (FID porównywalny do SDXL)
Brak potrzeby wstępnego generowania datasetu z nauczyciela
Stabilniejszy trening niż DMD v1 dzięki TTUR
Wsparcie konfiguracji multi-step (kompromis jakość–prędkość)
Ograniczenia
Wymaga równoczesnego treningu trzech sieci (teacher zamrożony, generator, fake score model)
Dyskryminator GAN dodaje wrażliwość hiperparametrów
Zysk jakości głównie na detalach wysokoczęstotliwościowych — w 1-step kompozycja może być słabsza
Ograniczony do destylacji modeli dyfuzyjnych (nie ma zastosowania do innych typów modeli generatywnych)

Ewolucja

Oryginalny paper · 2024 · NeurIPS 2024 · Tianwei Yin
Improved Distribution Matching Distillation for Fast Image Synthesis
Tianwei Yin, Michaël Gharbi, Taesung Park, Richard Zhang, Eli Shechtman, Frédo Durand, William T. Freeman
2023
Publikacja oryginalnego DMD (arXiv:2311.18828) — Yin et al. wprowadzają destylację przez dopasowanie dystrybucji z regression loss na wygenerowanym datasecie nauczyciela.
2024
DMD2 (arXiv:2405.14867) — eliminacja regression loss, wprowadzenie TTUR i GAN loss; jakość 4-step SDXL osiąga poziom 50-step nauczyciela.
Punkt przełomowy
2024
Akceptacja DMD2 na NeurIPS 2024 i upublicznienie kodu github.com/tianweiy/DMD2 oraz wag dla SDXL/SD1.5.