RLHF
RLHF • Reinforcement Learning from Human Feedback
TreningAktywny
Rok wprowadzenia: 2020Status: AktywnyMechanizmy: 3
RLHF to post-training technika stosowana w systemach AI, która dopasowuje zachowanie modelu do ludzkich preferencji przez trening oparty na ocenach ludzkich.
Jak działa
Trening reward model na ludzkich preferencjach, następnie RL do optymalizacji.
Problem rozwiązywany
Modele pre-trenowane nie podążają naturalnie za intencjami użytkowników.
Kluczowe mechanizmy
reward model
PPO
human preference ranking
Ocena
Mocne strony
- Lepsza jakość odpowiedzi
- Bezpieczeństwo
Ograniczenia
- Koszt feedbacku
- Reward hacking