Powrót do katalogu

Reinforcement Learning from Human Feedback

Trening
Reinforcement Learning from Human Feedback (RLHF) to metoda trenowania modeli generatywnych poprzez wykorzystanie ocen ludzi do uczenia modelu nagrody.

Powiązania

Powiązane modele

Źródła