Trening: warunek c (np. embedding tekstu) jest losowo zastępowany pustym tokenem ∅ z prawdopodobieństwem p_uncond (typowo 0.1-0.2). Dzięki temu jeden zestaw wag uczy się zarówno predykcji warunkowej ε_θ(x,c), jak i bezwarunkowej ε_θ(x,∅). Inferencja: w każdym kroku odszumiania (lub generacji) liczone są DWA przejścia — warunkowe i bezwarunkowe — a wynik jest ekstrapolowany liniowo: ε̃ = ε_θ(x,∅) + w·(ε_θ(x,c) − ε_θ(x,∅)). Równoważnie ε̃ = (1−w)·ε_θ(x,∅) + w·ε_θ(x,c) w niektórych konwencjach. Wektor (ε_θ(x,c) − ε_θ(x,∅)) wskazuje „kierunek warunku"; skala w go wzmacnia. w = 1 oznacza brak guidance (czysto warunkowe), w > 1 wzmacnia. Koszt: ~2× obliczeń inferencji (dwa forward passy), choć batchowanie warunkowego i bezwarunkowego przejścia łagodzi narzut.
Warunkowe modele generatywne często słabo przestrzegają warunku (promptu), generując treści tylko luźno z nim powiązane. Wcześniejsze classifier guidance wymagało osobnego klasyfikatora trenowanego na zaszumionych danych — kosztownego i trudnego. CFG pozwala silnie wzmocnić warunkowanie używając wyłącznie samego modelu generatywnego, bez dodatkowych sieci.
Losowe zastępowanie warunku c pustym tokenem ∅ z prawdopodobieństwem p_uncond (zwykle 0.1-0.2) podczas treningu.
Dwa przejścia modelu w każdym kroku: ε_θ(x,c) oraz ε_θ(x,∅). Często batchowane razem.
ε̃ = ε_θ(x,∅) + w·(ε_θ(x,c) − ε_θ(x,∅)). Skala w kontroluje siłę warunkowania.
Oficjalna
Duża skala guidance powoduje przesycone kolory, posteryzację i nienaturalne tekstury.
Dwa forward passy na krok (warunkowy + bezwarunkowy) podwajają koszt obliczeniowy.
Wysokie w zwiększa wierność warunkowi kosztem różnorodności próbek.
Dhariwal & Nichol wprowadzają guidance z osobnym klasyfikatorem trenowanym na zaszumionych danych.
Ho & Salimans pokazują, że osobny klasyfikator jest zbędny — wystarczy joint conditional/unconditional model.
CFG staje się standardowym mechanizmem warunkowania we wszystkich czołowych modelach text-to-image.
Lin i in. diagnozują przesycenie przy wysokim w i proponują rescale + zero-SNR schedule.
Destylacja CFG do jednego forward passa redukuje 2× narzut obliczeniowy (np. w modelach few-step).
Siła warunkowania. w=1 brak guidance, typowo 5-12 dla obrazu, 1-3 dla wideo. Za duże → artefakty.
Prawdopodobieństwo dropoutu warunku podczas treningu (typowo 0.1-0.2).
Współczynnik renormalizacji wariancji przeciw przesyceniu przy wysokim w.
Stała vs zmienna w czasie skala guidance (np. wyłączenie CFG w późnych krokach).
Pełny model jest aktywny dwukrotnie na każdy krok inferencji (warunkowo i bezwarunkowo).
Przejście warunkowe i bezwarunkowe można policzyć równolegle w jednym batchu, ale CFG działa wewnątrz sekwencyjnej pętli odszumiania/generacji modelu bazowego.
CFG to nadbudowa nad modelem dyfuzyjnym/AR — dziedziczy profil sprzętowy modelu bazowego (GPU tensor cores).
Sama logika guidance to tania kombinacja liniowa tensorów — nie nakłada własnych wymagań sprzętowych.