Zachowanie AI

SCRL

2026AktywnyOpublikowano: 25 czerwca 2026Aktualizacja: 25 czerwca 2026Opublikowany

Framework optymalizacji wielonagrodowej z RaG Kuaishou (06.2026). Łączy video quality, interest alignment i user feedback przez constrained policy optimization (GDPO + PID-Lagrange).

Kluczowa innowacja

Zamknięta pętla optymalizacji multi-reward RL łącząca trzy heterogeniczne domeny nagród — video quality, interest alignment i user feedback — przez constrained policy optimization, w którym user feedback jest celem głównym, a alignment i quality są ograniczeniami z PID-controlled Lagrange multipliers.

Kategoria

Zachowanie AI

Poziom abstrakcji

Building block

Poziom operacji

TreningPo-treningSystem

Zastosowania

Recommendation-as-Generation (RaG, Kuaishou) — oryginalny i kanoniczny use case, produkcja na 400M+ DAUMulti-objective LLM post-training, gdzie część celów to hard objectives (np. accuracy), a część to soft constraints (format, length, safety)RLHF z multi-aspect preferences (helpfulness + harmlessness + truthfulness) potraktowanymi asymetrycznieAgent training z primary task reward + safety constraints (np. nie wykonuj akcji ryzykownych poza budżetem)Constrained content generation: maksymalizacja engagement przy ograniczeniach jakości i zgodności z brand guidelines

Jak działa

Pipeline SCRL ma cztery etapy. Etap 1: Reward model setup — dla każdej z trzech domen trenowany jest osobny Transformer-based reward model na task-specific danych (visual quality, audio sync, effect alignment, instruction alignment, representation alignment). Etap 2: Threshold calibration — dla każdego constraint reward R_c oblicza się μ_c^base i σ_c^base na SFT baseline distribution, ustala τ_c = μ_c + k_c × σ_c z module-specific k_c (1,1 dla VGAs, 0,8 dla IM, 0,3 dla GRM). Etap 3: Constrained reward construction — composite reward R(y_i) = R_feedback(y_i) − Σ_c λ_c(t) × ReLU(τ_c − R_c(y_i)) z PID-controlled λ_c(t). Etap 4: GDPO optimization — per-reward standardization + group-relative batch normalization + PPO-style policy update z importance sampling clipping i KL regularization.

Rozwiązany problem

Naiwne łączenie heterogenicznych nagród w multi-reward RL (np. quality + alignment + feedback) cierpi z trzech praktycznych problemów: (1) skala mismatch — różne nagrody mają różne rzędy wielkości i jedna dominuje pozostałe; (2) nie wszystkie nagrody są równorzędne — niektóre to twarde cele biznesowe, inne to ograniczenia jakości/zgodności; (3) hand-tuned magic numbers (wagi, progi) są kruche i niemożliwe do generalizacji między modułami. SCRL rozwiązuje to przez constrained formulation (user feedback jako primary, alignment i quality jako constraints), PID-controlled Lagrangians i kalibrację thresholds względem SFT baseline distribution.

Kluczowe mechanizmy

Asymetryczna formulacja celów — primary objective (user feedback) vs constraints (alignment, quality) zamiast naive sumy

Trzy synergistyczne domeny nagród — quality (visual+audio+effect), alignment (instr+rep), feedback (real+pred) z dedykowanymi reward models per komponent

PID-controlled Lagrangian multipliers — λ_c(t) aktualizowane regułą PID z constraint violations zamiast naive primal-dual update (Stooke et al. 2020)

Calibrated thresholds — τ_c = μ_c^base + k_c × σ_c^base względem SFT baseline distribution na held-out validation set

Module-specific strictness factors — k_c różne dla VGAs (1,1), IM (0,8), GRM (0,3) odzwierciedlające rolę modułu w pipeline

GDPO jako optimizer — per-reward standardization eliminuje collapse różnych kombinacji nagród

Reward augmentation — łączenie sparse real signals (R_real) z dense predicted signals (R_pred) dla efektywności sample

Mocne strony i ograniczenia

Mocne strony

✓Sprawdzony w produkcji Kuaishou (400M+ DAU) — +5,46% przychodu reklamowego vs DLRM, +1,87% vs GRM baseline

✓Eliminuje hand-tuned magic numbers przez kalibrację thresholds względem baseline distribution

✓Asymetryczna formulacja celów odzwierciedla realność biznesową — feedback to twardy KPI, alignment i quality to gwarancje

✓PID-controlled Lagrangians zapewniają stabilność optymalizacji bez oscylacji

✓Module-specific strictness factors pozwalają na precyzyjne dopasowanie do roli komponentu w pipeline

✓Bazuje na sprawdzonym GDPO — korzysta z jego per-reward normalization rozwiązującej collapse advantage values

✓Łączenie sparse + dense rewards rozwiązuje praktyczny problem reward sparsity w real-world RL

Ograniczenia

✗Złożoność operacyjna — wymaga utrzymywania 7+ niezależnych reward models (visual, audio, effect, instr-align, rep-align, real feedback, pred feedback)

✗Wymaga SFT baseline distribution dla kalibracji thresholds — początkowy bootstrapping wymaga osobnego baseline'u

✗Strictness factors k_c są domain-specific i nadal wymagają decyzji projektantów (chociaż mniej arbitrary niż raw thresholds)

✗Skupione na rekomendacji wideo — generalizacja na inne domeny (np. text generation, robotyka) wymaga walidacji empirycznej

✗PID controller dla Lagrangians wprowadza dodatkowe hiperparametry (P, I, D coefficients) wymagające strojenia

✗Bezpośrednia replikacja poza Kuaishou jest trudna — pełny stos wymaga dostępu do production user feedback data i dedykowanych reward models

Komponenty

Video Quality RewardsConstraint reward — gwarancja perceptual quality wygenerowanego wideo

Składowa nagrody mierząca jakość generowanego wideo z trzech aspektów: R_visual (estetyka, spójność spatio-temporal), R_audio (synchronizacja TTS, spójność BGM), R_effect (jakość subtitles, highlights, action bars). Wszystkie aspekty mają dedykowane Transformer-based reward models trenowane na task-specific danych.

Oficjalna

Interest Alignment RewardsConstraint reward — gwarancja semantycznego dopasowania do intencji użytkownika

Składowa nagrody mierząca zgodność wygenerowanej treści z D-SIDs intencji użytkownika z GRM: R_instr-align (semantyczna zgodność D-SIDs ↔ wygenerowane instrukcje IM), R_rep-align (semantyczne podobieństwo D-SIDs ↔ finalnie wygenerowane wideo). Kotwiczy personalizację na strukturyzowanej intencji użytkownika.

Oficjalna

User Feedback RewardsPrimary objective — finansowo i biznesowo najważniejszy sygnał optymalizacji

Składowa nagrody mierząca rzeczywistą reakcję użytkownika: R_real (sparse, ale wysoko-fidelity rzeczywiste interakcje — click, like, collect, purchase), R_pred (gęste predykcje engagement z deployed ranking models, łapiące preference strength poza explicit interactions). Łączenie sparse + dense rozwiązuje problem reward sparsity.

PID-controlled Lagrangian MultipliersAdaptywne ważenie constraint rewards na podstawie ich aktualnego naruszenia

Time-varying λ_c(t) ≥ 0 dla każdego constraint reward, aktualizowane PID-controlled rule (proportional + integral + derivative na constraint violations) zamiast naive primal-dual update. Eliminuje typowe oscylacje i overshoot w constrained policy optimization (Stooke et al. 2020).

Oficjalna

Calibrated Thresholds with Module-Specific StrictnessAutomatyczna kalibracja constraint thresholds względem statistyk baseline'u zamiast ręcznego strojenia

Thresholds τ_c = μ_c^base + k_c × σ_c^base kalibrowane względem SFT baseline distribution na held-out validation set, z module-specific strictness factor k_c: VGAs (1,1 dla τ_a i τ_q — najsurowsze), IM (0,8 dla τ_a), GRM (0,3 dla τ_a, τ_q pominięte). Eliminuje hand-tuned magic numbers.

Implementacja

Pułapki implementacyjne

Naive primal-dual updates Lagrangians prowadzą do oscylacjiWysoka

Standardowe primal-dual updates λ_c po naruszeniu constraints mają tendencję do nadkorekcji (overshoot) i oscylacji — λ_c rośnie zbyt agresywnie, potem spada zbyt mocno, destabilizując trening.

Rozwiązanie:Użycie PID-controlled update rule (Stooke et al. 2020) z proportional + integral + derivative komponentami zamiast prostego primal-dual.

Hand-tuned thresholds zamiast kalibrowanychŚrednia

Statyczne, ręcznie dobrane τ_c są kruche — nie generalizują się między modułami (VGAs vs IM vs GRM) i wymagają ponownego strojenia przy każdej zmianie modelu. Brak relacji do baseline distribution oznacza brak intuicji co do trudności constraint.

Rozwiązanie:Kalibracja τ_c = μ_c^base + k_c × σ_c^base względem SFT baseline distribution na held-out validation set, z module-specific k_c.

Reward sparsity dla R_realŚrednia

Real user feedback (R_real) jest sparse i opóźniony — clicks/conversions zdarzają się rzadko per sample. Naive użycie tylko R_real prowadzi do niestabilnego, słabego signal treningowego.

Rozwiązanie:Augmentacja przez R_pred (gęste predykcje engagement z istniejących ranking models) — R_feedback = R_real + R_pred poprawia sample efficiency bez utraty wysokiej fidelity R_real.

Brak rozróżnienia primary objective vs constraintsWysoka

Traktowanie wszystkich nagród jako równorzędnych (naive sum lub weighted sum) ignoruje fakt, że niektóre to twarde KPI biznesowe (feedback), a inne to gwarancje jakości — co prowadzi do suboptymalnych trade-offs gdy nagrody są w konflikcie.

Rozwiązanie:Asymetryczna formulacja: primary objective + inequality constraints zamiast symetrycznej sumy. SCRL używa user feedback jako primary, alignment i quality jako constraints.

Ewolucja

Oryginalny paper · 2026 · arXiv 2606.25496 (Kuaishou Technology + Beihang University, czerwiec 2026), sekcja 2.5 · Yanhua Cheng

Recommendation as Generation: Unifying Personalized Video Generation and Recommendation at Industrial Scale

Yanhua Cheng, Bo Wang, Haotian Zhang, Xinyuan Gao, Peng Jiang, Kun Gai

2017

PPO (OpenAI) — fundament policy gradient

Schulman et al. wprowadzają Proximal Policy Optimization — fundament wszystkich późniejszych on-policy RL methods.

PPO (koncept)

2020

PID Lagrangian Methods (Stooke et al.) — stabilne constrained RL

Punkt przełomowy

Stooke et al. publikują 'Responsive Safety in Reinforcement Learning by PID Lagrangian Methods' — bezpośredni technologiczny fundament constrained policy optimization w SCRL.

2022

RLHF (InstructGPT) — popularyzacja reward models

OpenAI publikuje InstructGPT — standardowy pipeline RLHF z reward model + PPO. Inspiracja dla multi-aspect reward models w SCRL.

RLHF (koncept)

2024

GRPO (DeepSeek) — group-relative advantage

DeepSeek wprowadza Group Relative Policy Optimization — value-free policy optimization przez group-relative normalization.

GRPO (koncept)

2026

GDPO (NVIDIA, styczeń 2026) — fix multi-reward GRPO

Punkt przełomowy

Liu et al. (NVIDIA) wprowadzają GDPO z per-reward decoupled normalization — bezpośredni budulec optymalizacji w SCRL.

GDPO (koncept)

2026

SCRL w RaG (Kuaishou, czerwiec 2026)

Punkt przełomowy

Kuaishou Technology + Beihang University łączą GDPO + PID Lagrangians + multi-domain reward models w SCRL — framework zamykający pętlę end-to-end w paradigmie Recommendation-as-Generation. Wdrożenie produkcyjne na 400M+ DAU.

RaG (koncept)