RLHF

RLHF • Reinforcement Learning from Human Feedback

TreningAktywny

Rok wprowadzenia: 2020Status: AktywnyMechanizmy: 3

RLHF to post-training technika stosowana w systemach AI, która dopasowuje zachowanie modelu do ludzkich preferencji przez trening oparty na ocenach ludzkich.

Jak działa

Trening reward model na ludzkich preferencjach, następnie RL do optymalizacji.

Problem rozwiązywany

Modele pre-trenowane nie podążają naturalnie za intencjami użytkowników.

Kluczowe mechanizmy

reward model

PPO

human preference ranking

Ocena

Mocne strony

Lepsza jakość odpowiedzi
Bezpieczeństwo

Ograniczenia

Koszt feedbacku
Reward hacking

Wróć do katalogu konceptów