Robocikowo>ROBOCIKOWO
Trening

OPD

2023AktywnyOpublikowany
Metoda post-treningu, w której student uczy się na własnych trajektoriach, otrzymując gęste sygnały korekcyjne od nauczyciela na poziomie tokenów.
Kluczowa innowacja
Trenuje model-ucznia na jego własnych wygenerowanych sekwencjach przy użyciu gęstych sygnałów na poziomie tokenów od modelu-nauczyciela, eliminując rozbieżność dystrybucji charakterystyczną dla off-policy knowledge distillation.
Kategoria
Trening
Poziom abstrakcji
Pattern
Poziom operacji
Po-treningModelInferencja
Zastosowania
Kompresja dużych modeli językowych (destylacja LLM → smaller LLM)Post-trening modeli rozumowania matematycznego (dGRPO, BRTS, SCOPE)Trenowanie agentów LLM do korzystania z narzędzi (SOD, HyperEyes)Autonomiczne pojazdy — transfer wiedzy z dużego do małego planera (GPT-Driver)Modele dyfuzyjne — multi-task distillation (DiffusionOPD)Uzupełnienie rzadkich nagród RL w hybrydowych frameworkach post-treningu

Jak działa

Dla każdego promptu x: (1) student π_S generuje sekwencję ŷ ~ π_S(·|x) (on-policy rollout); (2) nauczyciel π_T oblicza log-prawdopodobieństwa na poziomie każdego tokenu t w ŷ; (3) student minimalizuje stratę KL: L = KL(π_T(·|x,ŷ_{<t}) || π_S(·|x,ŷ_{<t})) sumowaną po tokenach. W zależności od kierunku KL: forward KL (teacherward) lub reverse KL (studentward, daje efekt policy gradient). OPD dostarcza gęstych sygnałów na każdym tokenie, w przeciwieństwie do rzadkich nagród wynikowych w RL.

Rozwiązany problem

Klasyczne knowledge distillation (off-policy) trenuje studenta na sekwencjach nauczyciela lub danych statycznych, co prowadzi do exposure bias: student podczas inferencji generuje błędy, na których nie był trenowany. OPD rozwiązuje ten problem, trenując studenta na jego własnych trajectoriach, co eliminuje rozbieżność dystrybucji między treningiem a inferencją.

Komponenty

On-Policy Rollout (generowanie trajektorii studenta)Źródło trajektorii treningowych bez exposure bias

Student generuje sekwencję tokenów dla danego promptu — na tych własnych sekwencjach odbywa się trening.

Nauczyciel (Teacher LM)Źródło gęstych sygnałów korekcyjnych

Silniejszy model obliczający log-prawdopodobieństwa dla wygenerowanych przez studenta tokenów — dostarcza gęste sygnały per-token.

Oficjalna

Strata KL (Forward lub Reverse)Cel optymalizacji — miarę rozbieżności student-nauczyciel

Forward KL: KL(π_T || π_S) — dopasowanie rozkładu nauczyciela; Reverse KL: KL(π_S || π_T) — daje efekt policy gradient, wspiera eksplorację.

Oficjalna

Implementacja

Pułapki implementacyjne
Słaby nauczyciel — błędne sygnały korekcyjneWysoka

Jeśli nauczyciel nie jest istotnie lepszy od studenta, jego sygnały mogą prowadzić do nauki złych zachowań.

Rozwiązanie:Stosować nauczyciela co najmniej 2–10× większego lub filtrować trajektorie przez próg jakości.
Rock Tokens — stagnacja wysokostratnych tokenówŚrednia

Badania (Jiang et al. 2026) wykazują, że ~18% tokenów wykazuje persistentnie wysoką stratę mimo treningu OPD (tzw. Rock Tokens) — marnując przepustowość optymalizacji.

Rozwiązanie:Stosować selektywne ważenie tokenów (pomijanie Rock Tokens) lub SCOPE dual-path weighting.
Kaskadowe błędy narzędziowe w agentachWysoka

Błędne wywołania narzędzi propagują się przez kolejne kroki rozumowania, rosnąco oddalając trajektorię studenta od nauczyciela (SOD paper, 2026).

Rozwiązanie:Stosować step-wise reweighting (SOD) lub on-policy rollout restarty po błędnych krokach.

Ewolucja

Oryginalny paper · 2023 · ICLR 2024 · Rishabh Agarwal
On-Policy Distillation of Language Models: Learning from Self-Generated Mistakes
Rishabh Agarwal, Nino Vieillard, Yongchao Zhou, Piotr Stanczyk, Sabela Ramos, Matthieu Geist, Olivier Bachem
2023
Wprowadzenie GKD / On-Policy Distillation (Agarwal et al., Google DeepMind)
Punkt przełomowy

Papier GKD (ICLR 2024) formalizuje OPD jako metodę destylacji na własnych sekwencjach studenta, demonstrując efektywność na summarization, translation i arithmetic reasoning.

2024
OPD popularyzowane w post-treningu modeli rozumowania

Szersze zastosowanie OPD w połączeniu z RLHF i GRPO do modeli rozumowania matematycznego.

2025
OPD dominuje jako uzupełnienie rzadkich nagród RL
Punkt przełomowy

Seria prac (SCOPE, BRTS, AOPD, SOD, dGRPO) pokazuje OPD jako standardowy komponent hybrydowych frameworków post-treningu LLM obok GRPO/PPO.

2026
OPD rozszerzony na agenty multimodalne i modele dyfuzji

HyperEyes (multimodal agents), DiffusionOPD (text-to-image), SOD (small LLM agents) stosują OPD w nowych domenach.

Hiperparametry (konfigurowalne osie)

Kierunek KL (forward vs reverse)Krytyczna

Forward KL daje SFT-like matching (niższy entropia); Reverse KL daje RL-like policy gradient (wyższy entropia, lepsza eksploracja).

forward_klStabilniejszy, ale może redukować entropię.
reverse_klGradient policy-like, lepsza eksploracja.
Liczba rolloutów nauczyciela (N)Średnia

Ile trajektorii nauczyciela generować per prompt (Best-of-N w BRTS). N=1 standardowe OPD; N>1 redukuje wariancję sygnału.

1 (standard OPD)
4–8 (Best-of-N)

Złożoność obliczeniowa

Złożoność czasowa: O(T · L) per batch step.

Paradygmat wykonania

Tryb główny
dense

Sygnał nauczyciela obliczany jest dla każdego tokenu wygenerowanej sekwencji.

Wzorzec aktywacji
all_paths_active

Równoległość

Poziom równoległości
partially_parallel

Rollout studenta jest sekwencyjny (autoregresywny), ale ewaluacja nauczyciela może być równoległa.

Zakres
traininginference

Wymagania sprzętowe

OPD wymaga jednoczesnej inferencji modelu studenta (rollout) i nauczyciela (KL supervision) — typowo duży nauczyciel (100B+) na osobnym węźle GPU od studenta.