Reinforcement Learning from Human Feedback
Trening
Reinforcement Learning from Human Feedback (RLHF) to metoda trenowania modeli generatywnych poprzez wykorzystanie ocen ludzi do uczenia modelu nagrody.
Powiązania
Powiązane modele
Źródła
| Tytuł | Wydawca | Typ | Data dostępu |
|---|---|---|---|
| Training language models to follow instructions with human feedback | — | — | — |
