Pipeline RaG działa w trzech etapach: (1) Generative Recommendation Model przewiduje sekwencję D-SIDs reprezentującą przyszłe zainteresowanie użytkownika na podstawie jego profilu i historii interakcji; (2) Instruction Model (Qwen3-8B) tłumaczy te D-SIDs (opcjonalnie wzbogacone o metadata, np. info o produkcie reklamowym) na strukturyzowane instrukcje shot-level (kompozycja sceny, ruch kamery, tempo, styl filmowy); (3) Video Generation Agents wykonują te instrukcje w hierarchicznym pipeline'ie z trzech specjalizowanych agentów (visual, audio, effects) na wspólnym backbone Qwen2.5-32B, z bounded reflection loop (max 2 iteracje) i KV-cache reuse. Cała trasa jest optymalizowana SCRL z constrained policy optimization GDPO.
Tradycyjne systemy rekomendacji wideo, zarówno klasyczne DLRM jak i nowsze Generative Recommendation Models, są fundamentalnie ograniczone statyczną pulą prepublikowanych klipów. Nawet gdy zainteresowanie użytkownika wykracza poza istniejącą zawartość — szczególnie w przypadku dynamicznych, długoogoniastych i różnorodnych intencji — system może jedynie wybrać najbliższy istniejący klip. To prowadzi do suboptymalnych dopasowań w nowoczesnych platformach short-video.
Multimodalny koder oparty na Qwen2.5-VL-7B-Instruct generujący dwie rozdzielone reprezentacje wideo: content (encje, tematy) i creative (styl, rytm, atmosfera). Każda jest niezależnie kwantyzowana przez RQ-K-means na 4-warstwowy kod, 8192 wpisy/warstwa. Wynikowa sekwencja D-SIDs = [content SIDs ; creative SIDs] tworzy wspólny interfejs między rekomendacją a generacją.
Autoregresyjny model przewidujący sekwencję D-SIDs reprezentujących przyszłe zainteresowanie użytkownika na podstawie jego profilu i historii interakcji: p(D-SIDs | user_context) = ∏ p(s_t | s_<t, user_context). Trenowany w trybie streamingowym na logach interakcji (impression, click, watch time, conversion) z okresową optymalizacją GDPO.
Oficjalna
Model językowy oparty na Qwen3-8B przekształcający dyskretne D-SIDs (zrekonstruowane przez odwrotny RQ-K-means i zrzutowane przez learnable projector) na strukturyzowane instrukcje shot-level: kompozycja sceny, ruch kamery, tempo, styl. Trenowany trzyetapowo: (1) trening projektora, (2) joint fine-tuning, (3) reward optimization. Supervision distylowana z Gemini 2.5 Pro.
Oficjalna
Trzy wyspecjalizowane sub-agenty — Visual Planning Agent (VPA), Audio Alignment Agent (AAA), Artistic Effect Enhancement Agent (AEEA) — działające sekwencyjnie nad ewoluującym stanem generacji. Wszystkie współdzielą jeden backbone Qwen2.5-32B; różnicowane przez prompt i attention mask nad zestawem narzędzi. Bounded reflection loop max 2 iteracji Observe→Think→Act dla cross-modal consistency. KV-cache reuse między sub-agentami radykalnie obniża latency.
Mechanizm uczenia ze wzmocnieniem łączący trzy heterogeniczne sygnały: video quality (visual + audio + effect), interest alignment (instr-align + rep-align) i user feedback (real + predicted). Sformułowane jako constrained policy optimization: user feedback to primary objective, alignment i quality to constraints. Rozwiązywane przez GDPO (Group-decoupled normalization) z PID-controlled Lagrangian multipliers.
Oficjalna
Generowanie wideo jest o rzędy wielkości wolniejsze niż klasyczna inferencja rekomendacyjna. Bezpośrednie umieszczenie generacji w real-time pipeline jest niemożliwe — wymaga zdekompletowanej architektury (nearline + cache).
Naiwne aggregowanie heterogenicznych nagród (quality, alignment, feedback) prowadzi do dominacji jednej skali nad innymi i destabilizacji treningu.
Bez explicite wymuszanej ortogonalności reprezentacje content i creative mogą się przemieszać, niszcząc disentanglement.
Deep Learning Recommendation Models (Covington 2016, Wide & Deep, DIN itd.) — paradygmat retrieve-and-rank ze statycznej puli kandydatów.
Wprowadzenie Semantic IDs (Rajput et al. 2023) i pierwszych GRM modelujących rekomendację jako autoregresyjną generację SIDs, ale wciąż retrieving z puli klipów.
Efektywne architektury dla skalowalnych GRM w środowiskach produkcyjnych — Deng et al. 2025, Xue et al. 2026 — torują drogę do generacji jako natywnego paradygmatu.
Kuaishou Technology + Beihang University publikują (arXiv 2606.25496, czerwiec 2026) pierwsze produkcyjne wdrożenie systemu zjednoczającego rekomendację i generację personalizowanego wideo. Deployment na 400M+ DAU, +5,46% przychodu reklamowego vs. DLRM.
Stage-dependent activation: różne sub-agenty (visual/audio/effects) aktywują się sekwencyjnie w zależności od stanu generacji.
Hierarchiczna strategia serwowania: Case 1 (content-SIDs hit) — zwraca cachowane wideo lub generuje brakujące creative variations asynchronicznie; Case 2 (content-SIDs miss) — serwuje wideo z najbliższego sąsiada SIDs i kolejkuje nową generację z priorytetem.
Real-time GRM (generowanie D-SIDs intencji) jest sekwencyjny per request, ale skalowalny across requests. Nearline generowanie wideo (IM + VGAs) wykonuje się równolegle dla wielu D-SIDs, ale wewnątrz jednej generacji sub-agenty VGA działają sekwencyjnie (VPA → AAA → AEEA), z bounded reflection loop. KV-cache reuse między sub-agentami częściowo amortyzuje sekwencyjność.
Wszystkie kluczowe komponenty (Qwen2.5-VL, Qwen3-8B, Qwen2.5-32B, GRM) są typowymi modelami autoregresyjnymi/multimodalnymi, których trening i inferencja są pierwotnie przeznaczone dla GPU z tensor cores i frameworków typu vLLM/SGLang.
Sam paradygmat RaG jest niezależny od konkretnej rodziny sprzętu — można go zaimplementować na TPU, AWS Inferentia czy innych akceleratorach LLM/diffusion, dopóki dostępna jest skalowalna inferencja generatywna.