Model jest uruchamiany na zbiorze zadań domenowych. Każda odpowiedź jest oceniana przez obiektywny scorer. Gradient policy (np. PPO lub GRPO) jest obliczany na podstawie nagrody i używany do aktualizacji wag modelu. Iteracja powtarzana aż do zbieżności.
Ogólne modele RLHF są wyśmienite w rozumieniu instrukcji, ale nie są zoptymalizowane pod konkretne zadania z mierzalnym wynikiem. RFT rozwiązuje lukę między ogólną pomocnością a specjalistyczną dokładnością.
Model może znaleźć zachowania uzyskujące wysoką nagrodę bez spełniania intencji projektanta (np. generowanie długich, pewnie brzmiących ale błędnych odpowiedzi). Wymaga starannego projektowania reward function.
Za mała kara KL → model dryfuje daleko od SFT baseline, tracąc spójność językową. Za duża → model nie uczy się z nagród. Optymalna wartość β zależy od zadania i danych.
Dla trudnych zadań (np. złożone zadania matematyczne) model rzadko otrzymuje nagrody — wysoka wariancja gradientów prowadzi do niestabilnego lub zbieżnego powoli treningu.
RFT wymaga jednoczesnego utrzymywania modelu aktora, krytyka i modelu referencyjnego (SFT baseline) w pamięci — typowo 4-8× A100/H100 dla modeli 7-70B.