OPD
Jak działa
Dla każdego promptu x: (1) student π_S generuje sekwencję ŷ ~ π_S(·|x) (on-policy rollout); (2) nauczyciel π_T oblicza log-prawdopodobieństwa na poziomie każdego tokenu t w ŷ; (3) student minimalizuje stratę KL: L = KL(π_T(·|x,ŷ_{<t}) || π_S(·|x,ŷ_{<t})) sumowaną po tokenach. W zależności od kierunku KL: forward KL (teacherward) lub reverse KL (studentward, daje efekt policy gradient). OPD dostarcza gęstych sygnałów na każdym tokenie, w przeciwieństwie do rzadkich nagród wynikowych w RL.
Rozwiązany problem
Klasyczne knowledge distillation (off-policy) trenuje studenta na sekwencjach nauczyciela lub danych statycznych, co prowadzi do exposure bias: student podczas inferencji generuje błędy, na których nie był trenowany. OPD rozwiązuje ten problem, trenując studenta na jego własnych trajectoriach, co eliminuje rozbieżność dystrybucji między treningiem a inferencją.
Komponenty
Student generuje sekwencję tokenów dla danego promptu — na tych własnych sekwencjach odbywa się trening.
Silniejszy model obliczający log-prawdopodobieństwa dla wygenerowanych przez studenta tokenów — dostarcza gęste sygnały per-token.
Oficjalna
Forward KL: KL(π_T || π_S) — dopasowanie rozkładu nauczyciela; Reverse KL: KL(π_S || π_T) — daje efekt policy gradient, wspiera eksplorację.
Oficjalna
Implementacja
Jeśli nauczyciel nie jest istotnie lepszy od studenta, jego sygnały mogą prowadzić do nauki złych zachowań.
Badania (Jiang et al. 2026) wykazują, że ~18% tokenów wykazuje persistentnie wysoką stratę mimo treningu OPD (tzw. Rock Tokens) — marnując przepustowość optymalizacji.
Błędne wywołania narzędzi propagują się przez kolejne kroki rozumowania, rosnąco oddalając trajektorię studenta od nauczyciela (SOD paper, 2026).
Ewolucja
Papier GKD (ICLR 2024) formalizuje OPD jako metodę destylacji na własnych sekwencjach studenta, demonstrując efektywność na summarization, translation i arithmetic reasoning.
Szersze zastosowanie OPD w połączeniu z RLHF i GRPO do modeli rozumowania matematycznego.
Seria prac (SCOPE, BRTS, AOPD, SOD, dGRPO) pokazuje OPD jako standardowy komponent hybrydowych frameworków post-treningu LLM obok GRPO/PPO.
HyperEyes (multimodal agents), DiffusionOPD (text-to-image), SOD (small LLM agents) stosują OPD w nowych domenach.
Hiperparametry (konfigurowalne osie)
Forward KL daje SFT-like matching (niższy entropia); Reverse KL daje RL-like policy gradient (wyższy entropia, lepsza eksploracja).
Ile trajektorii nauczyciela generować per prompt (Best-of-N w BRTS). N=1 standardowe OPD; N>1 redukuje wariancję sygnału.
Złożoność obliczeniowa
Złożoność czasowa: O(T · L) per batch step.
Paradygmat wykonania
Sygnał nauczyciela obliczany jest dla każdego tokenu wygenerowanej sekwencji.
Równoległość
Rollout studenta jest sekwencyjny (autoregresywny), ale ewaluacja nauczyciela może być równoległa.
Wymagania sprzętowe
OPD wymaga jednoczesnej inferencji modelu studenta (rollout) i nauczyciela (KL supervision) — typowo duży nauczyciel (100B+) na osobnym węźle GPU od studenta.