Trening

ReFL

2023AktywnyAktualizacja: 12 maja 2026Opublikowany

ReFL to algorytm fine-tuningu modeli dyfuzyjnych poprzez propagację gradientów z różniczkowalnego modelu nagrody, dopasowujący generowane obrazy do preferencji człowieka.

Kluczowa innowacja

Bezpośrednio propaguje gradienty z różniczkowalnego modelu nagrody (np. ImageReward) przez wybrane kroki denoisingu modelu dyfuzyjnego, dostrajając go pod preferencje człowieka bez kosztownego RL.

Kategoria

Trening

Poziom abstrakcji

Pattern

Zastosowania

Fine-tuning text-to-imageAlignment modeli dyfuzyjnych do preferencji estetycznychKorekta artefaktów anatomicznychZwiększanie zgodności prompt-obrazPersonalizacja stylu generacji

Jak działa

Pipeline ReFL: (1) Wytrenowany wcześniej model nagrody (np. ImageReward) potrafi przewidzieć skalarny score odpowiadający ludzkiej preferencji dla pary tekst-obraz. (2) Podczas fine-tuningu modelu dyfuzyjnego losowany jest krok denoisingu t z późnego zakresu (np. ostatnie 10 z N kroków). (3) Z tego kroku predykowany jest finalny czysty obraz x̂₀ przez różniczkowalną aproksymację. (4) Model nagrody R(prompt, x̂₀) zwraca skalar; (5) Gradient ∂R/∂θ jest propagowany wstecz przez denoising do parametrów UNet-a. (6) Optymalizacja maksymalizuje E[R] z regularyzacją wobec oryginalnego modelu (KL-like lub wczesne kroki bez modyfikacji), zapobiegając „reward hackingowi".

Rozwiązany problem

Klasyczne RLHF dla modeli generujących obrazy jest kosztowne (PPO wymaga wielu próbek, ma wysoką wariancję), a Supervised Fine-Tuning na obrazach wybranych przez ludzi jest ograniczony rozmiarem zbiorów preferencji. ReFL rozwiązuje oba problemy korzystając z różniczkowalnego modelu nagrody — eliminuje potrzebę próbkowania politiki i pozwala uczyć model dyfuzyjny bezpośrednio z sygnału preferencji.

Komponenty

Różniczkowalny model nagrodyŹródło sygnału uczącego

Sieć (np. ImageReward bazujący na CLIP/BLIP) wytrenowana na zbiorze preferencji człowieka, zwracająca skalar R(prompt, image). Musi być różniczkowalna względem obrazu wejściowego.

Oficjalna

Model dyfuzyjny (UNet)Generator fine-tunowany

Sieć denoisingu (najczęściej UNet w Stable Diffusion lub DiT w nowszych modelach) — obiekt fine-tuningu. Aktualizowana są jej parametry (lub adaptery LoRA).

Predykcja x₀Most między denoisingiem a reward modelem

Krok aproksymacji końcowego czystego obrazu z pośredniego stanu zaszumionego x_t (formuła zależna od schedulera, np. DDIM). Niezbędny aby model nagrody mógł ocenić wynik.

Oficjalna

Selektor późnego kroku denoisinguWybór punktu obliczania gradientu

Komponent losujący krok t z późnego zakresu (zwykle ostatnich kilku z N) — kompromis między jakością gradientu (niższy szum, lepszy x̂₀) a kosztem pamięciowym propagacji wstecznej.

Oficjalna

Implementacja

Implementacje referencyjne

ImageReward (oficjalna implementacja)

Python · THUDM (Tsinghua University)

Oficjalna

Pułapki implementacyjne

Reward hackingKrytyczna

Bez regularyzacji model dyfuzyjny szybko nauczy się generować artefakty maksymalizujące wyłącznie reward, kosztem realizmu i różnorodności.

Rozwiązanie:Stosowanie pretraining loss na wczesnych krokach denoisingu, KL-regularyzacja względem modelu bazowego, ograniczanie liczby kroków treningu.

Wysokie zużycie pamięciWysoka

Backpropagation przez wiele kroków denoisingu wymaga przechowywania wszystkich pośrednich aktywacji UNet-a — szybko przekracza VRAM nawet na A100/H100.

Rozwiązanie:Gradient checkpointing, ograniczenie zakresu kroków late_step_range, fine-tuning przez LoRA zamiast pełnych wag.

Spadek różnorodności (mode collapse)Wysoka

Optymalizacja pod skalarny reward redukuje różnorodność generacji do wąskiego rozkładu obrazów wysoko ocenianych przez reward model.

Rozwiązanie:Mieszane batche z pretraining loss, użycie kilku reward modeli, wczesne zatrzymanie treningu.

Bias modelu nagrodyŚrednia

Wszelkie biasy w danych preferencji człowieka, na których trenowany był reward model, są przenoszone i wzmacniane w fine-tunowanym modelu dyfuzyjnym.

Rozwiązanie:Audyt zbioru preferencji, ensemble wielu reward modeli z różnymi danymi treningowymi.

Ewolucja

Oryginalny paper · 2023 · NeurIPS 2023 · Jiazheng Xu

ImageReward: Learning and Evaluating Human Preferences for Text-to-Image Generation

Jiazheng Xu, Xiao Liu, Yuchen Wu, Yuxuan Xu, Weiyun Zhang, Jie Tang, Yuxiao Dong

2023

Wprowadzenie ReFL w pracy ImageReward

Punkt przełomowy

Xu et al. publikują ImageReward i algorytm ReFL jako pierwsze podejście wykorzystujące różniczkowalny reward model do fine-tuningu modeli dyfuzyjnych.

ImageReward: Learning and Evaluating Human Preferences for Text-to-Image Generation (artykuł)

2023

DRaFT — gradient backpropagation przez pełną trajektorię

Clark et al. publikują DRaFT, rozszerzenie idei ReFL z propagacją gradientu przez większą liczbę kroków denoisingu.

Directly Fine-Tuning Diffusion Models on Differentiable Rewards (artykuł)

2023

AlignProp — stabilna propagacja gradientu reward przez denoising

Prabhudesai et al. publikują AlignProp z dodatkowymi technikami stabilizacji gradientu w długich łańcuchach denoisingu.

Aligning Text-to-Image Diffusion Models with Reward Backpropagation (artykuł)

Szczegóły techniczne

Hiperparametry (konfigurowalne osie)

Zakres późnych krokówWysoka

Z którego zakresu kroków denoisingu losowany jest punkt obliczenia gradientu reward.

1–10 ostatnich z 40Ustawienie z oryginalnego paper ImageReward.

1–5 ostatnichKonserwatywne, mniej memory-heavy.

Waga reward lossWysoka

Współczynnik mnożący loss z reward modelu w połączeniu z regularyzacją (zwykle pretraining loss).

Strategia regularyzacjiKrytyczna

Sposób zapobiegania reward hackingowi: pre-training loss na wczesnych krokach, KL do oryginalnego modelu, ograniczenia LoRA.

Rozmiar batchaŚrednia

Limitowany pamięcią — backpropagation przez denoising jest pamięciożerna.

Paradygmat wykonania

Tryb główny

dense

ReFL nie modyfikuje paradygmatu wykonania modelu dyfuzyjnego — pozostaje on dense. Modyfikuje tylko fazę uczenia.

Wzorzec aktywacji

all_paths_active

Równoległość

Poziom równoległości

partially_parallel

Trening jest data-parallel, ale wymaga pamięci wystarczającej na backpropagation przez wiele kroków denoisingu — typowo ogranicza efektywny per-device batch size.

Zakres

trainingacross_devices