Zachowanie AI

RLHF

2017Aktualizacja: 10 maja 2026

Technika trenowania modeli AI przy użyciu ludzkiej oceny jakości odpowiedzi.

Kluczowa innowacja

Zastąpienie ręcznie definiowanych funkcji nagrody modelem nagrody wytrenowanym na preferencjach wyrażonych przez ludzi, co umożliwia uczenie się złożonych zachowań zgodnych z intencjami człowieka bez konieczności eksplicytnego definiowania wszystkich kryteriów nagrody.

Kategoria

Zachowanie AI

Poziom abstrakcji

Paradigm

Poziom operacji

TreningPo-trening

Zastosowania

Alignment asystentów LLM (ChatGPT, Claude, Gemini, InstructGPT)Redukcja szkodliwych i niebezpiecznych odpowiedzi modeluDostrajanie modeli do przestrzegania instrukcji użytkownikaPersonalizacja tonu i stylu odpowiedzi modeluTrening modeli do streszczania tekstu zgodnego z preferencjami czytelnikaAlignment modeli generowania kodu (GitHub Copilot, CodeLlama)

Jak działa

RLHF składa się z trzech sekwencyjnych etapów:

1. Supervised Fine-Tuning (SFT): model bazowy jest dostrajany nadzorowanie na zbiorze par (prompt, odpowiedź) napisanych przez ludzi, tworząc politykę startową π_SFT.

2. Trening modelu nagrody: ludzcy adnotatorzy porównują pary odpowiedzi modelu na te same prompty i wybierają lepszą. Na tych porównaniach trenowany jest skalarny model nagrody r_φ(x, y) minimalizujący stratę Bradley-Terry: -E[log σ(r(x, y_w) − r(x, y_l))].

3. RL Fine-Tuning (PPO): polityka π_θ zainicjalizowana z SFT jest optymalizowana przez PPO (Proximal Policy Optimization) w celu maksymalizacji nagrody r_φ, z karą za odchylenie od polityki referencyjnej π_SFT mierzoną dywergencją KL: Objective(x, y) = r_φ(x, y) − β · KL(π_θ(y|x) ∥ π_SFT(y|x)). Współczynnik β zapobiega reward hackingowi — eksploatowaniu niedoskonałości modelu nagrody.

Rozwiązany problem

Uczenie złożonych zachowań AI zgodnych z intencjami i wartościami człowieka bez konieczności ręcznego definiowania funkcji nagrody. Klasyczne RL wymaga precyzyjnej, ręcznie zaprojektowanej nagrody — co jest niewykonalne dla zadań subiektywnych (np. generowania pomocnych, bezpiecznych i zgodnych z intencją odpowiedzi tekstowych). RLHF zastępuje tę funkcję modelem nagrody wytrenowanym na porównaniach preferencji zebranych od ludzi.

Komponenty

Supervised Fine-Tuning (SFT)Ustanowienie wstępnej polityki zdolnej do przestrzegania instrukcji na poziomie bazowym, zanim zostanie zastosowany sygnał preferencji.

Pierwszy etap RLHF: wstępne dostrajanie nadzorowane modelu bazowego na zbiorze demonstracji napisanych przez ludzi (pary prompt–odpowiedź). Wynikowy model π_SFT stanowi punkt startowy dla treningu RL i jest używany jako model referencyjny do obliczania kary KL.

Oficjalna

Model nagrody (Reward Model)Przekształcenie subiektywnych preferencji ludzkich w skalarny sygnał nagrody możliwy do optymalizacji przez algorytm RL.

Model skalarny r_φ(x, y) trenowany na parach porównań odpowiedzi zebranych od ludzkich adnotatorów. Uczy się przewidywać, którą odpowiedź człowiek by preferował, i dostarcza sygnał nagrody do etapu RL. Zwykle wykorzystuje model Bradley-Terry jako cel treningowy: minimalizuje -log σ(r(x, y_w) - r(x, y_l)), gdzie y_w to preferowana, a y_l odrzucona odpowiedź.

Oficjalna

Etap RL (PPO z karą KL)Optymalizacja polityki modelu w celu generowania odpowiedzi zgodnych z preferencjami ludzkimi przy zachowaniu stabilności generacji.

Trzeci etap RLHF: optymalizacja polityki π_θ za pomocą algorytmu PPO (Proximal Policy Optimization) w celu maksymalizacji nagrody z modelu nagrody, z jednoczesną karą za odchylenie od polityki referencyjnej (SFT). Cel: Objective(x, y) = r_φ(x, y) − β · KL(π_θ(y|x) || π_SFT(y|x)). Kara KL ze współczynnikiem β zapobiega reward hackingowi.

PPO (Proximal Policy Optimization)Domyślny algorytm RL w RLHF. Ogranicza aktualizacje polityki przez clipping lub penalizację KL w celu zapewnienia stabilności treningu.

A2C (Advantage Actor-Critic)Alternatywny algorytm RL zastosowany przez DeepMind w modelu Gopher/GopherCite zamiast PPO.

Oficjalna

Zbiór preferencji ludzkichPrzekazanie preferencji ludzkich do modelu nagrody w formie możliwej do uczenia maszynowego.

Zbiór danych zebranych od ludzkich adnotatorów, zawierający porównania par odpowiedzi modelu (y_w > y_l lub odwrotnie) dla tych samych promptów. Dane te są używane do treningu modelu nagrody. Jakość i spójność adnotatorów bezpośrednio wpływa na jakość wynikowego modelu nagrody.

Pairwise comparisons (rankingi par)Adnotatorzy wybierają lepszą z dwóch odpowiedzi. Najczęstsza forma zbierania preferencji w RLHF (stosowana w InstructGPT, Claude, Gemini).

Absolute ratings (oceny Likerta)Adnotatorzy oceniają odpowiedzi na skali liczbowej zamiast porównywać pary. Mniej powszechna, ale stosowana w niektórych podejściach.

Oficjalna

Implementacja

Implementacje referencyjne

TRL (Transformer Reinforcement Learning) – Hugging Face

Python · Hugging Face

Hugging Face RLHF Blog Post z przykładowym kodem

Python · Hugging Face

Pułapki implementacyjne

Reward hacking – eksploatacja słabości modelu nagrodyWysoka

Model polityki może nauczyć się generować odpowiedzi, które uzyskują wysokie oceny modelu nagrody, ale są rzeczywiście niskiej jakości: nadmiernie długie, repetytywne, schematyczne lub zawierające sformułowania, które model nagrody nauczył się nagradzać nieproporcjonalnie. Wynika z faktu, że model nagrody jest niedoskonałym proxy dla rzeczywistych preferencji ludzkich.

Rozwiązanie:Stosowanie kary KL (β) ograniczającej odchylenie od π_SFT. Regularne monitorowanie jakości generowanych odpowiedzi na zbiorze testowym przez ludzi. Ograniczenie liczby kroków PPO i monitorowanie skali nagród.

Niestabilność treningu PPOWysoka

Trening PPO jest wrażliwy na hiperparametry: współczynnik uczenia, wartość β kary KL, rozmiar batchów, zakres clippingu PPO i liczbę epok PPO na batch. Małe zmiany tych wartości mogą powodować dywergencję treningu lub zanik zdolności językowych modelu.

Rozwiązanie:Stosowanie sprawdzonych zakresów hiperparametrów (LR ~1e-6–1e-5, β ~0.01–0.1). Wdrożenie monitorowania nagrody, straty KL i próbek generowanych przez model na etapie treningu. Regularne checkpointowanie.

Niespójność i subiektywizm adnotatorówWysoka

Różni ludzcy adnotatorzy mogą mieć niespójne preferencje, co wprowadza szum do danych preferencji i obniża jakość modelu nagrody. Wpływ na wynik ma zarówno liczba adnotatorów, jak i klarowność wytycznych dla adnotatorów.

Rozwiązanie:Precyzyjne wytyczne adnotacyjne z przykładami. Filtrowanie adnotatorów na podstawie inter-annotator agreement. Wielokrotne adnotacje tego samego przykładu i agregacja. Stosowanie dodatkowych mechanizmów kontroli jakości (screening tests jak w InstructGPT).

Alignment tax – utrata zdolności bazowych modeluŚrednia

RLHF może powodować degradację wydajności modelu na standardowych benchmarkach NLP (alignment tax): model staje się bardziej pomocny i bezpieczny, ale może stracić część surowych zdolności językowych, jeśli β i LR nie są odpowiednio dobrane.

Rozwiązanie:Stosowanie PPO-ptx (mieszanie aktualizacji PPO z gradientami pre-treningu, jak w InstructGPT). Regularne ewaluowanie na benchmarkach zarówno podczas, jak i po treningu RL. Dokładne dostrajanie β.

Bardzo wysokie wymagania pamięci GPU podczas etapu PPOŚrednia

Etap RL wymaga jednoczesnego załadowania do pamięci GPU czterech modeli (polityka, referencja, model nagrody, model wartości). Dla modeli 7B parametrów to ~56 GB samych wag w fp16, co wymaga zaawansowanego zarządzania pamięcią (gradient checkpointing, offloading, DeepSpeed ZeRO).

Rozwiązanie:Stosowanie bibliotek takich jak TRL + DeepSpeed ZeRO-3. Gradient checkpointing dla modelu polityki. Offloading zamrożonych modeli (referencja, RM) na CPU gdy nie są aktywnie używane. Rozważenie DPO jako alternatywy wymagającej tylko dwóch modeli.

Ewolucja

Oryginalny paper · 2017 · NeurIPS 2017 (Advances in Neural Information Processing Systems 30) · Paul Christiano

Deep reinforcement learning from human preferences

Paul Christiano, Jan Leike, Tom B. Brown, Miljan Martic, Shane Legg, Dario Amodei

2017

Christiano et al. definiują RLHF w kontekście głębokiego RL (NeurIPS 2017)

Punkt przełomowy

Paper 'Deep reinforcement learning from human preferences' wykazał, że ludzkie preferencje między segmentami trajektorii mogą efektywnie zastąpić funkcję nagrody w RL, umożliwiając naukę złożonych zachowań w środowiskach Atari i symulacjach robotycznych przy mniej niż 1% liczby interakcji z otoczeniem.

Deep reinforcement learning from human preferences (artykuł)

2020

Stiennon et al. (OpenAI) stosują RLHF do streszczania tekstu

Paper 'Learning to summarize with human feedback' rozszerzył RLHF na zadanie streszczania tekstu z użyciem GPT modeli, demonstrując przeniesienie techniki z zadań RL do zadań NLP z modelami językowymi.

Learning to summarize with human feedback (artykuł)

2022

InstructGPT (Ouyang et al., NeurIPS 2022) – RLHF jako standardowa metoda alignmentu LLM

Punkt przełomowy

Paper 'Training language models to follow instructions with human feedback' przedstawił pełny potok RLHF (SFT → RM Training → PPO) dla GPT-3, tworząc InstructGPT. Wykazał, że model 1.3B parametrów wytrenowany z RLHF jest preferowany przez ludzi nad modelem GPT-3 175B bez RLHF. Stał się fundamentem dla ChatGPT i dalszych systemów alignmentu LLM.

Training language models to follow instructions with human feedback (artykuł)

2022

ChatGPT (grudzień 2022) – szerokie wdrożenie RLHF w produktach konsumenckich

Punkt przełomowy

OpenAI wdrożyło RLHF w ChatGPT, który stał się pierwszym powszechnie stosowanym asystentem AI wytrenowanym z użyciem technik RLHF. Zapoczątkowało to powszechne stosowanie RLHF przez inne laboratoria (Anthropic, Google, Meta).

2023

Direct Preference Optimization (DPO) – matematycznie równoważna alternatywa dla RLHF bez RL

Punkt przełomowy

Rafailov et al. opublikowali DPO (arXiv:2305.18290), wykazując, że cel RLHF można zoptymalizować bezpośrednio przez jedną stratę nadzorowaną na parach preferencji, bez konieczności trenowania osobnego modelu nagrody i pętli PPO. DPO stał się popularną alternatywą dla RLHF, szczególnie w zastosowaniach o ograniczonych zasobach obliczeniowych.

Direct Preference Optimization: Your Language Model is Secretly a Reward Model (artykuł)

Hiperparametry (konfigurowalne osie)

Współczynnik kary KL (β)Krytyczna

Waga kary KL w celu PPO: Objective = r_φ(x,y) − β · KL(π_θ||π_SFT). Zbyt mała wartość → reward hacking (model eksploatuje słabości modelu nagrody). Zbyt duża wartość → minimalna zmiana polityki względem SFT.

0.01 – 0.1Typowy zakres wartości β w RLHF dla LLM. InstructGPT stosował wartości w tym przedziale.

0.2Wyższa wartość β — silniejsza regularyzacja względem SFT.

Architektura modelu nagrodyWysoka

Model nagrody zazwyczaj ma tę samą architekturę co polityka LLM, z dodatkową głowicą skalarną zamiast głowicy językowej. Rozmiar modelu nagrody wpływa na jakość sygnału preferencji.

Taki sam rozmiar jak polityka (np. 7B)Stosowane w InstructGPT. Zapewnia wyrównany poziom rozumienia.

Mniejszy niż politykaOszczędność pamięci GPU; może ograniczyć jakość sygnału nagrody.

Liczba par porównań w zbiorze preferencjiWysoka

Rozmiar zbioru danych preferencji używanego do treningu modelu nagrody. Bezpośrednio wpływa na koszt adnotacji i jakość modelu nagrody.

~33 000Liczba par porównań użytych przez OpenAI do treningu modelu nagrody dla InstructGPT (Ouyang et al. 2022).

~500 000+Skalowanie dla większych modeli (np. Claude, Gemini).

Learning rate PPOWysoka

Szybkość uczenia w etapie PPO. Zbyt wysoka → niestabilność i reward hacking; zbyt niska → wolna konwergencja.

1e-6 – 1e-5Typowy zakres dla RLHF LLM. Znacznie niższy niż podczas prereningu.

Złożoność obliczeniowa

Złożoność czasowa: O(N_pref · L²·d) + O(K_PPO · B · L²·d). Złożoność przestrzenna: O(4 · P) wag + O(B · L · d) aktywacji.

Wąskie gardło obliczeniowe

Jednoczesne przechowywanie czterech modeli w pamięci podczas etapu PPO

Standardowy etap RL w RLHF wymaga jednoczesnego ładowania do pamięci GPU czterech modeli: aktywnej polityki (π_θ), zamrożonej polityki referencyjnej (π_SFT) do obliczania kary KL, modelu nagrody (r_φ) oraz modelu wartości/krytyki (value model) dla szacowania przewagi (advantage) w PPO. Dla modeli o rozmiarze 7B oznacza to ~4×14 GB = ~56 GB samych wag w fp16, bez stanów optymalizatora i aktywacji.

Zależy od

Rozmiar modelu politykiLiczba kroków rollout i batch size PPO

Paradygmat wykonania

Tryb główny

dense

RLHF nie jest paradygmatem inferencji, lecz wieloetapowym potokiem treningowym. Każdy z trzech etapów używa standardowego dense Transformera. 'Stage-dependent' odnosi się do faktu, że każdy etap ma inny cel treningowy: cross-entropy (SFT), binary cross-entropy na parach (RM), zoptymalizowany policy gradient z karą KL (RL).

Wzorzec aktywacji

stage_dependent

Równoległość

Poziom równoległości

partially_parallel

W ramach każdego etapu możliwe jest zrównoleglenie danych (data parallelism) i modeli (tensor/pipeline parallelism) na wielu GPU/TPU. Generowanie rolloutów w etapie RL może być zrównoleglone przez wiele replik polityki.

Zakres

trainingacross_devices

Ograniczenia

!Trzy etapy RLHF (SFT → RM Training → RL Fine-Tuning) muszą być wykonywane sekwencyjnie. Etap RL wymaga modelu nagrody z poprzedniego etapu.

!PPO wymaga generowania rolloutów za pomocą aktualnej polityki, co wyklucza pełne zrównoleglenie z wcześniejszymi próbkami.

Wymagania sprzętowe

Podstawowe

RLHF wymaga efektywnych operacji GEMM dla czterech modeli Transformer jednocześnie podczas etapu PPO, akcelerowanych przez Tensor Cores (NVIDIA A100, H100). Generowanie rolloutów on-policy jest kosztowne i wymaga GPU o dużej pamięci HBM (40–80 GB).

Dobry fit

TPU v4/v5 są stosowane przez Google do RLHF dla modeli Gemini i PaLM-RLHF. Efektywnie obsługują operacje GEMM i mogą obsługiwać wszystkie cztery modele w konfiguracji TPU Pod.

Źródła

Training language models to follow instructions with human feedback

Deep reinforcement learning from human preferences

Paper

arXiv (NeurIPS 2017)

Learning to summarize with human feedback

Paper

arXiv (NeurIPS 2020)

Direct Preference Optimization: Your Language Model is Secretly a Reward Model

Paper

arXiv (NeurIPS 2023)

Illustrating Reinforcement Learning from Human Feedback (RLHF)

Blog

Hugging Face