Reinforcement Fine-Tuning

Fine-tunes a pre-trained model on domain-specific tasks using reinforcement learning rewards, improving task accuracy without general RLHF preference alignment.

Kategoria

Poziom abstrakcji

Domain-specific model specializationScientific reasoninggenerowanie kodu optimizationMedical diagnosis assistance

Model jest uruchamiany na zbiorze zadań domenowych. Każda odpowiedź jest oceniana przez obiektywny scorer. Gradient policy (np. PPO lub GRPO) jest obliczany na podstawie nagrody i używany do aktualizacji wag modelu. Iteracja powtarzana aż do zbieżności.

Ogólne modele RLHF są wyśmienite w rozumieniu instrukcji, ale nie są zoptymalizowane pod konkretne zadania z mierzalnym wynikiem. RFT rozwiązuje lukę między ogólną pomocnością a specjalistyczną dokładnością.

GENEZA · Papier źródłowy

Training Language Models to Self-Correct via Reinforcement Learning

2024arXiv 2024Aviral Kumar, Vincent Zhuang, Rishabh Agarwal

ROZSZERZA

RLHF

Reinforcement Learning from Human Feedback (RLHF) to metoda trenowania modeli generatywnych poprzez wykorzystanie ocen ludzi do uczenia modelu nagrody.

PRZEJDŹ DO KONCEPTU