Trening

OPD

2023AktywnyOpublikowany

Metoda post-treningu, w której student uczy się na własnych trajektoriach, otrzymując gęste sygnały korekcyjne od nauczyciela na poziomie tokenów.

Kluczowa innowacja

Trenuje model-ucznia na jego własnych wygenerowanych sekwencjach przy użyciu gęstych sygnałów na poziomie tokenów od modelu-nauczyciela, eliminując rozbieżność dystrybucji charakterystyczną dla off-policy knowledge distillation.

Kategoria

Trening

Poziom abstrakcji

Wzorzec

Poziom operacji

Po-treningModelInferencja

Zastosowania

Kompresja dużych modeli językowych (destylacja LLM → smaller LLM)Post-trening modeli rozumowania matematycznego (dGRPO, BRTS, SCOPE)Trenowanie agentów LLM do korzystania z narzędzi (SOD, HyperEyes)Autonomiczne pojazdy — transfer wiedzy z dużego do małego planera (GPT-Driver)Modele dyfuzyjne — multi-task distillation (DiffusionOPD)Uzupełnienie rzadkich nagród RL w hybrydowych frameworkach post-treningu

Jak działa

Dla każdego promptu x: (1) student π_S generuje sekwencję ŷ ~ π_S(·|x) (on-policy rollout); (2) nauczyciel π_T oblicza log-prawdopodobieństwa na poziomie każdego tokenu t w ŷ; (3) student minimalizuje stratę KL: L = KL(π_T(·|x,ŷ_{<t}) || π_S(·|x,ŷ_{<t})) sumowaną po tokenach. W zależności od kierunku KL: forward KL (teacherward) lub reverse KL (studentward, daje efekt policy gradient). OPD dostarcza gęstych sygnałów na każdym tokenie, w przeciwieństwie do rzadkich nagród wynikowych w RL.

Rozwiązany problem

Klasyczne knowledge distillation (off-policy) trenuje studenta na sekwencjach nauczyciela lub danych statycznych, co prowadzi do exposure bias: student podczas inferencji generuje błędy, na których nie był trenowany. OPD rozwiązuje ten problem, trenując studenta na jego własnych trajectoriach, co eliminuje rozbieżność dystrybucji między treningiem a inferencją.

Komponenty

On-Policy Rollout (generowanie trajektorii studenta)Źródło trajektorii treningowych bez exposure bias

Student generuje sekwencję tokenów dla danego promptu — na tych własnych sekwencjach odbywa się trening.

Nauczyciel (Teacher LM)Źródło gęstych sygnałów korekcyjnych

Silniejszy model obliczający log-prawdopodobieństwa dla wygenerowanych przez studenta tokenów — dostarcza gęste sygnały per-token.

Oficjalna

Strata KL (Forward lub Reverse)Cel optymalizacji — miarę rozbieżności student-nauczyciel

Forward KL: KL(π_T || π_S) — dopasowanie rozkładu nauczyciela; Reverse KL: KL(π_S || π_T) — daje efekt policy gradient, wspiera eksplorację.

Oficjalna

Implementacja

Implementacje referencyjne

GKD (Generalized Knowledge Distillation) — oryginalna implementacja

Python · Google DeepMind

Oficjalna

Pułapki implementacyjne

Słaby nauczyciel — błędne sygnały korekcyjneWysoka

Jeśli nauczyciel nie jest istotnie lepszy od studenta, jego sygnały mogą prowadzić do nauki złych zachowań.

Rozwiązanie:Stosować nauczyciela co najmniej 2–10× większego lub filtrować trajektorie przez próg jakości.

Rock Tokens — stagnacja wysokostratnych tokenówŚrednia

Badania (Jiang et al. 2026) wykazują, że ~18% tokenów wykazuje persistentnie wysoką stratę mimo treningu OPD (tzw. Rock Tokens) — marnując przepustowość optymalizacji.

Rozwiązanie:Stosować selektywne ważenie tokenów (pomijanie Rock Tokens) lub SCOPE dual-path weighting.

Kaskadowe błędy narzędziowe w agentachWysoka

Błędne wywołania narzędzi propagują się przez kolejne kroki rozumowania, rosnąco oddalając trajektorię studenta od nauczyciela (SOD paper, 2026).

Rozwiązanie:Stosować step-wise reweighting (SOD) lub on-policy rollout restarty po błędnych krokach.

Ewolucja

Oryginalny paper · 2023 · ICLR 2024 · Rishabh Agarwal

On-Policy Distillation of Language Models: Learning from Self-Generated Mistakes

Rishabh Agarwal, Nino Vieillard, Yongchao Zhou, Piotr Stanczyk, Sabela Ramos, Matthieu Geist, Olivier Bachem

2023

Wprowadzenie GKD / On-Policy Distillation (Agarwal et al., Google DeepMind)

Punkt przełomowy

Papier GKD (ICLR 2024) formalizuje OPD jako metodę destylacji na własnych sekwencjach studenta, demonstrując efektywność na summarization, translation i arithmetic reasoning.

2024

OPD popularyzowane w post-treningu modeli rozumowania

Szersze zastosowanie OPD w połączeniu z RLHF i GRPO do modeli rozumowania matematycznego.

2025

OPD dominuje jako uzupełnienie rzadkich nagród RL

Punkt przełomowy

Seria prac (SCOPE, BRTS, AOPD, SOD, dGRPO) pokazuje OPD jako standardowy komponent hybrydowych frameworków post-treningu LLM obok GRPO/PPO.

2026

OPD rozszerzony na agenty multimodalne i modele dyfuzji

HyperEyes (multimodal agents), DiffusionOPD (text-to-image), SOD (small LLM agents) stosują OPD w nowych domenach.