ReFL
Jak działa
Pipeline ReFL: (1) Wytrenowany wcześniej model nagrody (np. ImageReward) potrafi przewidzieć skalarny score odpowiadający ludzkiej preferencji dla pary tekst-obraz. (2) Podczas fine-tuningu modelu dyfuzyjnego losowany jest krok denoisingu t z późnego zakresu (np. ostatnie 10 z N kroków). (3) Z tego kroku predykowany jest finalny czysty obraz x̂₀ przez różniczkowalną aproksymację. (4) Model nagrody R(prompt, x̂₀) zwraca skalar; (5) Gradient ∂R/∂θ jest propagowany wstecz przez denoising do parametrów UNet-a. (6) Optymalizacja maksymalizuje E[R] z regularyzacją wobec oryginalnego modelu (KL-like lub wczesne kroki bez modyfikacji), zapobiegając „reward hackingowi".
Rozwiązany problem
Klasyczne RLHF dla modeli generujących obrazy jest kosztowne (PPO wymaga wielu próbek, ma wysoką wariancję), a Supervised Fine-Tuning na obrazach wybranych przez ludzi jest ograniczony rozmiarem zbiorów preferencji. ReFL rozwiązuje oba problemy korzystając z różniczkowalnego modelu nagrody — eliminuje potrzebę próbkowania politiki i pozwala uczyć model dyfuzyjny bezpośrednio z sygnału preferencji.
Komponenty
Sieć (np. ImageReward bazujący na CLIP/BLIP) wytrenowana na zbiorze preferencji człowieka, zwracająca skalar R(prompt, image). Musi być różniczkowalna względem obrazu wejściowego.
Oficjalna
Sieć denoisingu (najczęściej UNet w Stable Diffusion lub DiT w nowszych modelach) — obiekt fine-tuningu. Aktualizowana są jej parametry (lub adaptery LoRA).
Krok aproksymacji końcowego czystego obrazu z pośredniego stanu zaszumionego x_t (formuła zależna od schedulera, np. DDIM). Niezbędny aby model nagrody mógł ocenić wynik.
Oficjalna
Komponent losujący krok t z późnego zakresu (zwykle ostatnich kilku z N) — kompromis między jakością gradientu (niższy szum, lepszy x̂₀) a kosztem pamięciowym propagacji wstecznej.
Oficjalna
Implementacja
Bez regularyzacji model dyfuzyjny szybko nauczy się generować artefakty maksymalizujące wyłącznie reward, kosztem realizmu i różnorodności.
Backpropagation przez wiele kroków denoisingu wymaga przechowywania wszystkich pośrednich aktywacji UNet-a — szybko przekracza VRAM nawet na A100/H100.
Optymalizacja pod skalarny reward redukuje różnorodność generacji do wąskiego rozkładu obrazów wysoko ocenianych przez reward model.
Wszelkie biasy w danych preferencji człowieka, na których trenowany był reward model, są przenoszone i wzmacniane w fine-tunowanym modelu dyfuzyjnym.
Ewolucja
Xu et al. publikują ImageReward i algorytm ReFL jako pierwsze podejście wykorzystujące różniczkowalny reward model do fine-tuningu modeli dyfuzyjnych.
Clark et al. publikują DRaFT, rozszerzenie idei ReFL z propagacją gradientu przez większą liczbę kroków denoisingu.
Prabhudesai et al. publikują AlignProp z dodatkowymi technikami stabilizacji gradientu w długich łańcuchach denoisingu.
Szczegóły techniczne
Hiperparametry (konfigurowalne osie)
Z którego zakresu kroków denoisingu losowany jest punkt obliczenia gradientu reward.
Współczynnik mnożący loss z reward modelu w połączeniu z regularyzacją (zwykle pretraining loss).
Sposób zapobiegania reward hackingowi: pre-training loss na wczesnych krokach, KL do oryginalnego modelu, ograniczenia LoRA.
Limitowany pamięcią — backpropagation przez denoising jest pamięciożerna.
Paradygmat wykonania
ReFL nie modyfikuje paradygmatu wykonania modelu dyfuzyjnego — pozostaje on dense. Modyfikuje tylko fazę uczenia.
Równoległość
Trening jest data-parallel, ale wymaga pamięci wystarczającej na backpropagation przez wiele kroków denoisingu — typowo ogranicza efektywny per-device batch size.
Wymagania sprzętowe
ReFL wymaga równoczesnego forward i backward przez UNet plus reward model — najlepiej skaluje się na GPU z dużą pamięcią (A100 80GB, H100).
TPU obsługują operacje fine-tuningu modeli dyfuzyjnych, ale większość referencyjnych implementacji ReFL pochodzi z PyTorch/CUDA.