Reinforcement Fine-Tuning
Fine-tunes a pre-trained model on domain-specific tasks using reinforcement learning rewards, improving task accuracy without general RLHF preference alignment.
Model jest uruchamiany na zbiorze zadań domenowych. Każda odpowiedź jest oceniana przez obiektywny scorer. Gradient policy (np. PPO lub GRPO) jest obliczany na podstawie nagrody i używany do aktualizacji wag modelu. Iteracja powtarzana aż do zbieżności.
Ogólne modele RLHF są wyśmienite w rozumieniu instrukcji, ale nie są zoptymalizowane pod konkretne zadania z mierzalnym wynikiem. RFT rozwiązuje lukę między ogólną pomocnością a specjalistyczną dokładnością.
GENEZA · Papier źródłowy
Training Language Models to Self-Correct via Reinforcement LearningROZSZERZA
RLHF
Reinforcement Learning from Human Feedback (RLHF) to metoda trenowania modeli generatywnych poprzez wykorzystanie ocen ludzi do uczenia modelu nagrody.
PRZEJDŹ DO KONCEPTUCzęsto używane z
Instruction Tuning
Instruction tuning polega na trenowaniu modeli językowych na zbiorach danych zawierających instrukcje i oczekiwane odpowiedzi.
PRZEJDŹ DO KONCEPTUPowiązane modele AI
GPT
1| Tytuł | Wydawca | Typ |
|---|---|---|
| Reinforcement Fine-Tuning | OpenAI API | OpenAI | dokumentacja |