Kuaishou RaG: system rekomendacji generujący spersonalizowane wideo reklamowe

Kuaishou opublikował pracę naukową opisującą RaG (Recommendation-as-Generation) — system, który przebudowuje logikę rekomendacji wideo od podstaw: zamiast wyszukiwać istniejące treści, generuje spersonalizowane filmy reklamowe bezpośrednio z profilu zainteresowań użytkownika. Wdrożony w produkcji na ponad 400 milionach użytkowników dziennie, w testach A/B przyniósł +1,870% wzrostu przychodów reklamowych względem dotychczasowego modelu bazowego GRM.

Najważniejsze w skrócie

RaG zastępuje model „znajdź i uszereguj" nowym podejściem: „przewidź zainteresowania, potem wygeneruj wideo"
System składa się z 5 modułów: D-SIDs, GRM, Instruction Model, Video Generation Agents, SCRL
Wdrożony w reklamach Kuaishou obsługujących 400 mln+ dziennych użytkowników
Pełny system: +5,462% przychodów reklamowych vs DLRM, +1,870% vs GRM baseline
Praca dostępna na arXiv (2606.25496), strona projektu: recommendation-as-generation.github.io

Od „retrieve-and-rank" do „generate-and-serve"

Przez ostatnią dekadę każdy duży system rekomendacji wideo działał według jednego schematu: użytkownik przychodzi, system szacuje jego zainteresowania, a następnie przeszukuje bibliotekę treści i wybiera najlepiej pasujące filmy. Model „retrieve-and-rank" napędza TikToka, YouTube'a i właśnie Kuaishou — ale ma fundamentalne ograniczenie: może polecać tylko to, co już istnieje.

Praca „Recommendation as Generation: Unifying Personalized Video Generation and Recommendation at Industrial Scale", opublikowana na arXiv (2606.25496), opisuje system, który przestawia logikę o 180 stopni. Autorzy z Kuaishou i Beihang University zamiast pytać „który film najlepiej pasuje do tego użytkownika?" zadają pytanie: „jak powinien wyglądać film idealnie dopasowany do tego użytkownika?" — i od razu go generują.

To nie jest eksperyment laboratoryjny. RaG działa dziś w systemie reklamowym Kuaishou. W testach A/B pełny system przyniósł +5,462% wzrostu przychodów względem tradycyjnego modelu DLRM i +1,870% względem silniejszego modelu bazowego GRM — co w skali setek milionów użytkowników przekłada się na konkretne miliony dolarów przychodu.

Pięć modułów, jedna pętla

D-SIDs: dwuwymiarowa tożsamość wideo

D-SIDs (Disentangled Semantic IDs) rozwiązują problem wspólnej reprezentacji dla obu światów: rekomendacji i generowania wideo. Pojedynczy film reklamowy nie ma jednej semantyki — ten sam produkt można pokazać jako lifestyle'owy shortform albo agresywną reklamę sprzedażową. Autorzy podzielili reprezentację wideo na dwa niezależne kanały: Content SIDs (co wideo pokazuje: produkt, postacie, akcje) i Creative SIDs (jak wideo wygląda: styl, rytm, atmosfera, ujęcia). Reprezentacja bazuje na Qwen2.5-VL-7B-Instruct, kwantyzowanym przez RQ-KMeans do 2-warstwowego codebooka z 8192 kodami na warstwę.

Efekt jest mierzalny: wskaźnik kolizji w przestrzeni semantycznej spadł z 18,24% (QARM) do 2,62%, a precyzja wyszukiwania semantycznego (R@1) wzrosła o 16,5 punktu procentowego względem wcześniejszych metod. Czystsza przestrzeń latentna sprawia, że i model rekomendacji lepiej się uczy, i generator łatwiej tworzy spójne wideo.

GRM i Instruction Model: od zainteresowań do instrukcji

GRM (Generative Recommendation Model) to serce systemu rekomendacyjnego. Tradycyjne modele przewidują, czy dany film spodoba się użytkownikowi. GRM zamiast tego autoregresywnie przewiduje sekwencję D-SIDs odpowiadającą przyszłym zainteresowaniom — na podstawie profilu i historii zachowań użytkownika. Wyjście to nie ID konkretnego wideo, lecz „mapa intencji" gotowa do przekazania systemowi generowania. GRM działa w trybie online z latencją ~100 ms, co mieści się w oknie czasowym systemu rekomendacyjnego.

Instruction Model (IM) tłumaczy abstrakcyjne D-SIDs na konkretne instrukcje na poziomie ujęć: co każda kamera ma pokazywać, kiedy zmienić scenę, jaki tekst lektorski wygłosić, kiedy wyświetlić CTA. Model bazuje na Qwen3-8B trenowanym na danych nadzorczych wygenerowanych przez Gemini 2.5 Pro. Trening przebiega trójfazowo — od zamrożonego LLM z projectorami, przez wspólne fine-tuning, po optymalizację nagrodami w pętli z SCRL.

VGAs: wieloagentowa linia produkcji wideo

Video Generation Agents składają się z trzech wyspecjalizowanych agentów: Visual Planning Agent planuje sceny i timing, Audio Alignment Agent synchronizuje narrację i muzykę z rytmem wizualnym, a Artistic Effect Enhancement Agent dodaje napisy, przejścia, naklejki i CTA. Każdy agent działa jako sekwencja decyzji — wybiera akcje (text-to-video, image-to-video, TTS, BGM, efekty) i obserwuje stan produkcji przed kolejnym krokiem.

System wprowadza mechanizm „reflection": agent obserwuje wyniki pośrednie i koryguje plan w maksymalnie dwóch iteracjach, żeby kontrolować latencję (~180 s całości). W porównaniu z tradycyjnym, opartym na szablonach pipelinem, VGAs osiągają o 41,4 punktu procentowego wyższy wskaźnik automatycznych zwycięstw i o 18,5 pp wyższy w ocenach użytkowników.

SCRL: optymalizacja w jednej pętli

SCRL (Synergistic Cross-Domain Reward Learning) zamyka pętlę optymalizacji. System traktuje feedback użytkowników (kliknięcia, polubienia, zakupy) jako cel główny, a zgodność z zainteresowaniami (Interest Alignment Reward) i jakość wideo (Video Quality Reward) jako twarde ograniczenia z progami. Gdy jakość lub zgodność spada poniżej progu, system otrzymuje karę. GDPO normalizuje nagrody różnych skal, a PID-controlled Lagrangian multipliers dynamicznie aktualizują wagi ograniczeń — eliminując ręczne strojenie parametrów.

Każda kategoria nagród wnosi realny wkład: sama R_visual poprawia Automated Win Rate o 21,4 pp, a dodanie Interest Alignment Reward zwiększa wynik zgodności z 0,707 do 0,828 (+17,1%).

Inżynieryjne wyzwanie: milisekundy kontra minuty

RaG rozwiązuje też fundamentalny problem inżynieryjny: systemy rekomendacji wymagają odpowiedzi w milisekundach, a generowanie wideo trwa minuty. Autorzy rozdzielili te dwa światy: GRM działa w trybie online (100 ms), IM i VGAs — near-line (sekundy do minut), a gotowe wideo trafia do pamięci podręcznej. Gdy użytkownik wysyła żądanie, system sprawdza, czy D-SIDs z predykcji GRM mają trafienie w cache. Gdy trafi — zwraca gotowe wideo natychmiast. Gdy brak Creative SIDs — zwraca wideo z dopasowaną treścią i asynchronicznie generuje wariant kreatywny. Gdy brak Content SIDs — używa wideo z najbliższego semantycznie sąsiada i kolejkuje generację.

Dlaczego to ważne?

Przez dekadę skala systemów rekomendacyjnych wymagała kompromisu: im więcej użytkowników, tym trudniej serwować naprawdę indywidualną treść, bo koszt tworzenia każdego wideo był zbyt wysoki. RaG pokazuje, że ten kompromis można złamać. Spersonalizowane wideo generowane on-demand nie jest już domeną startupów z małą bazą użytkowników — jest wdrożone na 400 milionach osób dziennie i przynosi mierzalne przychody reklamowe.

Ważniejszy jest jednak precedens architektoniczny. RaG nie jest systemem AIGC oplecionym wokół istniejącej rekomendacji — to przebudowa fundamentów: model rekomendacji przestaje wybierać z listy, zaczyna prognozować, jak treść powinna wyglądać. Jeśli ten wzorzec zadomowi się w branży, granica między „silnikiem rekomendacji" a „platformą produkcji treści" zacznie się zacierać. Reklama wideo to pierwszy rynek, gdzie taka zmiana jest opłacalna — zainteresowania użytkownika mają już cenę rynkową w systemach aukcyjnych, a generowanie wideo on-demand może fundamentalnie zmienić ekonomię platform społecznościowych.

Co dalej?

Strona projektu (recommendation-as-generation.github.io) udostępnia przykłady wygenerowanych reklam — kod i wagi modeli nie zostały dotychczas opublikowane
Praca ma status preprintu arXiv (2606.25496), recenzja peer-review jest dopiero przed nią — wyniki produkcyjne warto traktować jako dane wewnętrzne Kuaishou bez zewnętrznej weryfikacji
Autorzy sygnalizują możliwość rozszerzenia systemu poza reklamy wideo — potencjalnie na organiczne rekomendacje treści w innych formatach