Architektura

RaG

2026BadawczyOpublikowano: 25 czerwca 2026Aktualizacja: 25 czerwca 2026Opublikowany

Paradygmat systemowy zaproponowany przez Kuaishou (czerwiec 2026), w którym rekomendacja staje się generowaniem treści. Zamiast wybierać z puli, system tworzy spersonalizowane wideo z D-SIDs.

Kluczowa innowacja

Zmiana paradygmatu rekomendacji: zamiast wyszukiwać i rankować klipy z gotowej puli, system generuje spersonalizowane wideo na żądanie na podstawie wywnioskowanych intencji użytkownika, jednocząc model rekomendacyjny i generator wideo poprzez współdzielone Disentangled Semantic IDs (D-SIDs).

Kategoria

Architektura

Poziom abstrakcji

Paradygmat

Poziom operacji

SystemInferencjaWdrożenieAplikacja

Zastosowania

Generatywna rekomendacja personalizowanego wideo reklamowego w platformach short-video (oryginalny use case: Kuaishou)Rekomendacja treści dla użytkowników o nietypowych lub długoogoniastych zainteresowaniach, których nie pokrywa istniejąca pulaTworzenie treści dynamicznie dopasowanej do bieżącego nastroju i kontekstu konsumpcjiPersonalizacja kreatywnych elementów reklamy (styl wideo, muzyka, efekty) pod konkretnego użytkownika przy zachowaniu tożsamości produktu

Jak działa

Pipeline RaG działa w trzech etapach: (1) Generative Recommendation Model przewiduje sekwencję D-SIDs reprezentującą przyszłe zainteresowanie użytkownika na podstawie jego profilu i historii interakcji; (2) Instruction Model (Qwen3-8B) tłumaczy te D-SIDs (opcjonalnie wzbogacone o metadata, np. info o produkcie reklamowym) na strukturyzowane instrukcje shot-level (kompozycja sceny, ruch kamery, tempo, styl filmowy); (3) Video Generation Agents wykonują te instrukcje w hierarchicznym pipeline'ie z trzech specjalizowanych agentów (visual, audio, effects) na wspólnym backbone Qwen2.5-32B, z bounded reflection loop (max 2 iteracje) i KV-cache reuse. Cała trasa jest optymalizowana SCRL z constrained policy optimization GDPO.

Rozwiązany problem

Tradycyjne systemy rekomendacji wideo, zarówno klasyczne DLRM jak i nowsze Generative Recommendation Models, są fundamentalnie ograniczone statyczną pulą prepublikowanych klipów. Nawet gdy zainteresowanie użytkownika wykracza poza istniejącą zawartość — szczególnie w przypadku dynamicznych, długoogoniastych i różnorodnych intencji — system może jedynie wybrać najbliższy istniejący klip. To prowadzi do suboptymalnych dopasowań w nowoczesnych platformach short-video.

Kluczowe mechanizmy

Disentangled Semantic IDs (D-SIDs) — rozdzielenie wideo na content semantics + creative attributes przez RQ-K-means quantization z osobnymi kodebookami (8192 wpisów/warstwa, 4 warstwy hierarchiczne)

Generative interest prediction — autoregresyjne modelowanie p(D-SIDs | user_context) zamiast scoringu kandydatów

Instruction Model jako semantyczny most między dyskretnymi D-SIDs a sterowanym generowaniem (Qwen3-8B + projektor uczony na trzech etapach)

Hierarchical multi-agent video generation z trzema sub-agentami (visual, audio, effects) na wspólnym backbone Qwen2.5-32B i KV-cache reuse

Bounded reflection loop (max 2 iteracje Observe→Think→Act) dla spójności cross-modalnej przy zachowaniu latencji

Synergistic Cross-Domain Reward Learning (SCRL) — constrained policy optimization z GDPO, user feedback jako primary objective, interest alignment + video quality jako constraints z Lagrange multipliers PID

Decoupled deployment architecture: real-time GRM + nearline IM/VGAs + latency-aware serving z hierarchicznym SID-indexed cache

Mocne strony i ograniczenia

Mocne strony

✓Wykracza poza limit skończonej puli wideo, generując treść dla dowolnych D-SIDs zainteresowań

✓Empirycznie zweryfikowany w produkcji na platformie 400M+ DAU z wzrostem przychodu o +5,46% vs. DLRM i +1,87% vs. silny GRM baseline

✓Disentangled content/creative jest bardziej strukturalna i mniej wrażliwa na interferencję podczas autoregresyjnej generacji niż monolityczne SIDs

✓Hierarchiczna struktura agentowa pozwala na specjalizację (visual/audio/effects) przy zachowaniu wspólnego backbone (oszczędność parametrów + KV-cache reuse)

✓SCRL z GDPO rozwiązuje praktyczny problem łączenia heterogenicznych nagród (jakość, zgodność, feedback) bez ręcznego strojenia magic numbers

✓Decoupled deployment (real-time + nearline) pozwala na praktyczną integrację mimo wolnej generacji wideo

Ograniczenia

✗Wymaga dużej infrastruktury obliczeniowej — generowanie wideo jest o rzędy wielkości wolniejsze niż klasyczna inferencja rekomendacyjna (stąd potrzeba nearline pipeline)

✗Bezpośrednie zastosowanie poza Kuaishou nie jest zwalidowane; eksperymenty publiczne ograniczają się do scenariusza reklamowego

✗Jakość finalnego wideo jest ograniczona przez stan obecnych modeli generatywnych — wciąż wymaga 2-iteracyjnej refleksji dla cross-modal consistency

✗Konieczność szkolenia oddzielnych komponentów (encoder, GRM, IM, VGAs) z dystylacji od bardzo silnego nauczyciela (Gemini 2.5 Pro w supervision construction) komplikuje powielenie

✗Personalizacja kreatywnych aspektów wideo dla setek milionów użytkowników wymaga agresywnego cache'owania (SID-indexed), co może zmniejszać prawdziwą personalizację dla rzadkich kombinacji intencji

Komponenty

Disentangled Semantic Video Encoders (D-SIDs)Jednolity interfejs latentny — most między modelem rekomendacyjnym a generatorem wideo

Multimodalny koder oparty na Qwen2.5-VL-7B-Instruct generujący dwie rozdzielone reprezentacje wideo: content (encje, tematy) i creative (styl, rytm, atmosfera). Każda jest niezależnie kwantyzowana przez RQ-K-means na 4-warstwowy kod, 8192 wpisy/warstwa. Wynikowa sekwencja D-SIDs = [content SIDs ; creative SIDs] tworzy wspólny interfejs między rekomendacją a generacją.

Generative Recommendation Model (GRM)Real-time interest modeling — niskolatencyjna generacja D-SIDs intencji użytkownika

Autoregresyjny model przewidujący sekwencję D-SIDs reprezentujących przyszłe zainteresowanie użytkownika na podstawie jego profilu i historii interakcji: p(D-SIDs | user_context) = ∏ p(s_t | s_<t, user_context). Trenowany w trybie streamingowym na logach interakcji (impression, click, watch time, conversion) z okresową optymalizacją GDPO.

Oficjalna

Instruction Model (IM)Semantyczny most między rekomendacją a controllable generacją

Model językowy oparty na Qwen3-8B przekształcający dyskretne D-SIDs (zrekonstruowane przez odwrotny RQ-K-means i zrzutowane przez learnable projector) na strukturyzowane instrukcje shot-level: kompozycja sceny, ruch kamery, tempo, styl. Trenowany trzyetapowo: (1) trening projektora, (2) joint fine-tuning, (3) reward optimization. Supervision distylowana z Gemini 2.5 Pro.

Oficjalna

Video Generation Agents (VGAs)Hierarchical multi-agent video production — visual planning + audio alignment + artistic effects

Trzy wyspecjalizowane sub-agenty — Visual Planning Agent (VPA), Audio Alignment Agent (AAA), Artistic Effect Enhancement Agent (AEEA) — działające sekwencyjnie nad ewoluującym stanem generacji. Wszystkie współdzielą jeden backbone Qwen2.5-32B; różnicowane przez prompt i attention mask nad zestawem narzędzi. Bounded reflection loop max 2 iteracji Observe→Think→Act dla cross-modal consistency. KV-cache reuse między sub-agentami radykalnie obniża latency.

Synergistic Cross-Domain Reward Learning (SCRL)End-to-end optymalizacja zamkniętego koła generacji-rekomendacji

Mechanizm uczenia ze wzmocnieniem łączący trzy heterogeniczne sygnały: video quality (visual + audio + effect), interest alignment (instr-align + rep-align) i user feedback (real + predicted). Sformułowane jako constrained policy optimization: user feedback to primary objective, alignment i quality to constraints. Rozwiązywane przez GDPO (Group-decoupled normalization) z PID-controlled Lagrangian multipliers.

Oficjalna

Implementacja

Implementacje referencyjne

Project page (Kuaishou)

Yanhua Cheng et al. (Kuaishou Technology)

Oficjalna

Pułapki implementacyjne

Wąskie gardło latency video generationKrytyczna

Generowanie wideo jest o rzędy wielkości wolniejsze niż klasyczna inferencja rekomendacyjna. Bezpośrednie umieszczenie generacji w real-time pipeline jest niemożliwe — wymaga zdekompletowanej architektury (nearline + cache).

Rozwiązanie:Zdekompletowane wdrożenie: real-time GRM, nearline IM+VGAs, hierarchiczny SID-indexed cache, asynchroniczne kolejkowanie brakujących creative variations.

Skala mismatch między różnymi nagrodamiWysoka

Naiwne aggregowanie heterogenicznych nagród (quality, alignment, feedback) prowadzi do dominacji jednej skali nad innymi i destabilizacji treningu.

Rozwiązanie:Constrained policy optimization (GDPO) z per-channel standardization i PID-controlled Lagrangian multipliers; thresholds kalibrowane od baseline distribution (τ = μ_base + k·σ_base) z różnymi k per komponent.

Cross-factor leakage między content a creative SIDsŚrednia

Bez explicite wymuszanej ortogonalności reprezentacje content i creative mogą się przemieszać, niszcząc disentanglement.

Rozwiązanie:Orthogonality constraint w funkcji straty: L_orth = ||z_content^T · z_creative||_2^2 dodawany do contrastive loss każdej modalności.

Ewolucja

Oryginalny paper · 2026 · arXiv preprint (cs.IR), 24 czerwca 2026 · Yanhua Cheng

Recommendation as Generation: Unifying Personalized Video Generation and Recommendation at Industrial Scale

Yanhua Cheng, Bo Wang, Haotian Zhang, Xinyuan Gao, Peng Jiang, Kun Gai

2016

DLRMs jako standard rekomendacji

Deep Learning Recommendation Models (Covington 2016, Wide & Deep, DIN itd.) — paradygmat retrieve-and-rank ze statycznej puli kandydatów.

2023

Semantic IDs i Generative Recommendation Models

Wprowadzenie Semantic IDs (Rajput et al. 2023) i pierwszych GRM modelujących rekomendację jako autoregresyjną generację SIDs, ale wciąż retrieving z puli klipów.

2025

Industrial-scale GRM (np. Xue et al. 2026)

Efektywne architektury dla skalowalnych GRM w środowiskach produkcyjnych — Deng et al. 2025, Xue et al. 2026 — torują drogę do generacji jako natywnego paradygmatu.

2026

RaG — Recommendation-as-Generation (Kuaishou)

Punkt przełomowy

Kuaishou Technology + Beihang University publikują (arXiv 2606.25496, czerwiec 2026) pierwsze produkcyjne wdrożenie systemu zjednoczającego rekomendację i generację personalizowanego wideo. Deployment na 400M+ DAU, +5,46% przychodu reklamowego vs. DLRM.