Pipeline ma trzy fazy. Faza 1 (offline, raz na katalog): dla każdego itemu content encoder (np. Sentence-T5) wylicza embedding z atrybutów tekstowych; RQ-VAE z N hierarchicznymi kodebookami kwantyzuje embedding na N-tuple kodów dyskretnych — to SID itemu. Faza 2 (offline, trening): sequence-to-sequence Transformer (np. T5) trenowany na sesjach użytkowników reprezentowanych jako sekwencje SIDs, z next-SID prediction loss. Faza 3 (online, inference): dla danego użytkownika system bierze jego ostatnie interakcje (jako sekwencja SIDs), karmi Transformer i beam-search generuje top-K kandydatów następnych SIDs, każdy dekodowany z powrotem na konkretny item z katalogu.
Klasyczne systemy rekomendacji opierają się na atomic IDs (jednorazowych identyfikatorach itemów) lub gęstych embeddingach z nearest neighbor search. Atomic IDs nie mają wewnętrznej semantyki (item_42851 nie informuje o niczym), wymagają osobnego embedding lookup dla każdego itemu i nie skalują się dobrze w katalogach setek milionów itemów. Embedding retrieval z ANN search wymaga utrzymywania ogromnych indeksów i traci semantyczną strukturę między itemami. Nie radzą sobie też dobrze z cold-start.
Pre-trenowany model encodera (oryginalnie Sentence-T5) który przyjmuje atrybuty itemu (np. tytuł, opis, kategorię) i zwraca gęsty wektor embeddingu w przestrzeni semantycznej. Dla modalności innych niż tekst używa się analogicznych encoderów multimodalnych (np. CLIP, Qwen2.5-VL dla wideo).
Oficjalna
Mechanizm hierarchicznej kwantyzacji embeddingu na N dyskretnych kodów. Pierwsza warstwa znajduje najbliższy centroid w pierwszym kodebooku; druga aproksymuje residuum z pierwszej; trzecia residuum z drugiej; itd. Każda warstwa ma własny kodebook (typowo 256–8192 wpisów). Trenowany jointly z encoderem przez reconstruction loss + commitment loss.
Oficjalna
N osobnych kodebookow (jeden na warstwę), każdy z C uczonymi wektorami centroidów (typowo C=256 lub C=8192). Trenowane przez RQ-VAE razem z encoderem. Łączny rozmiar słownika SIDs to N × C — drastycznie mniej niż liczba itemów w katalogu (setki milionów).
W oryginalnej pracy (TIGER) jest to model T5. Przyjmuje na wejściu sekwencję SIDs reprezentujących interakcje użytkownika w sesji i autoregresyjnie przewiduje SID następnego itemu, którym użytkownik prawdopodobnie się zainteresuje. Trenowany standard next-token prediction loss na sekwencjach kodów.
Oficjalna
Skończony rozmiar kodebookow oznacza, że różne itemy mogą wylądować z identyczną krotką kodów (kolizja). Wraz ze wzrostem katalogu prawdopodobieństwo kolizji rośnie.
Gdy znacząca część katalogu się zmienia (nowe kategorie, nowe trendy), oryginalne kodebooki RQ-VAE mogą nie pokrywać już dobrze przestrzeni embeddingów, prowadząc do gorszej kwantyzacji.
Bez specjalnej regularyzacji pierwszy kodebook absorbuje większość wariancji embeddingów, a kolejne warstwy aproksymują tylko drobne residua — co prowadzi do nierównomiernego wykorzystania słownika.
Van den Oord et al. wprowadzają Vector Quantized Variational Autoencoder, fundament wszystkich późniejszych technik kwantyzacji ciągłych embeddingów na dyskretne kody.
Lee et al. (Autoregressive Image Generation using Residual Quantization, CVPR 2022) i Zeghidour et al. (SoundStream) popularyzują hierarchiczną kwantyzację residualną — pierwowzór dla SIDs.
Rajput et al. (Google Research, NeurIPS 2023) publikują Recommender Systems with Generative Retrieval — pierwsze użycie SIDs jako celów autoregresyjnej generacji w rekomendacji. SOTA na Amazon Beauty/Sports/Toys.
Pierwsze wdrożenia generative recommendation models opartych na SIDs w środowiskach produkcyjnych z setkami milionów użytkowników.
Kuaishou rozszerza SIDs do Disentangled SIDs rozdzielających content i creative semantykę wideo. D-SIDs są kluczowym interfejsem latentnym paradygmatu Recommendation-as-Generation, generując personalizowane wideo on demand zamiast retrieval ze statycznej puli.
Model autoregresyjny jest dense w obliczeniach, ale routing po dyskretnych kodach SIDs powoduje conditional aktywację specyficznych ścieżek w przestrzeni itemów.
Inference odbywa się przez beam search po hierarchicznym słowniku kodów: model autoregresyjnie wybiera top-K kandydatów na każdej warstwie, generując ostatecznie top-K kompletnych krotek SIDs jako rekomendacje.
Generacja SIDs jest sekwencyjna — kolejny kod warstwy zależy od poprzednich. Trening może być częściowo zrównoleglony jak w typowym Transformerze (teacher forcing), ale inference per sesja jest sekwencyjny.
Zarówno trening content encoder + RQ-VAE jak i trening sequence-to-sequence Transformera są typowymi obciążeniami GPU. Inference autoregresyjny korzysta z optymalizacji jak KV-cache.
Oryginalna praca (Google Research) używała TPU dla treningu T5 — TPU są naturalnym wyborem dla tej rodziny architektur.
Sama koncepcja SIDs jest niezależna od sprzętu — można je generować i przewidywać na dowolnej platformie wspierającej Transformery i operacje kwantyzacji.