Powrót do katalogu

RLHF

RLHF • Reinforcement Learning from Human Feedback

TreningAktywny
Rok wprowadzenia: 2020Status: AktywnyMechanizmy: 3
RLHF to post-training technika stosowana w systemach AI, która dopasowuje zachowanie modelu do ludzkich preferencji przez trening oparty na ocenach ludzkich.

Jak działa

Trening reward model na ludzkich preferencjach, następnie RL do optymalizacji.

Problem rozwiązywany

Modele pre-trenowane nie podążają naturalnie za intencjami użytkowników.

Kluczowe mechanizmy

reward model
PPO
human preference ranking

Ocena

Mocne strony

  • Lepsza jakość odpowiedzi
  • Bezpieczeństwo

Ograniczenia

  • Koszt feedbacku
  • Reward hacking