Wyszukiwanie

SIDs

2023AktywnyOpublikowano: 25 czerwca 2026Aktualizacja: 25 czerwca 2026Opublikowany

Hierarchiczne, dyskretne kody (np. 4-warstwowe tuple) reprezentujące semantykę itemu. Wprowadzone przez Google Research (Rajput et al. 2023, NeurIPS) jako podstawa generatywnej rekomendacji.

Kluczowa innowacja

Reprezentacja itemów (np. wideo, produktów) jako semantycznie znaczących krotek dyskretnych kodów (codewords), które można przewidywać autoregresyjnie zamiast wyszukiwać przez nearest neighbor search w gęstej przestrzeni embeddingów.

Kategoria

Wyszukiwanie

Poziom abstrakcji

Building block

Poziom operacji

Element architekturyInferencjaSystem

Zastosowania

Generative Retrieval w e-commerce (oryginalny use case: Amazon Beauty/Sports/Toys w TIGER)Generative recommendation w platformach short-video (Kuaishou, YouTube Shorts itp.)Cold-start recommendation dla nowych itemów bez historii interakcji (dziedziczenie semantyki przez wspólne prefiksy SIDs)Foundation layer dla Disentangled SIDs (D-SIDs) i paradygmatu Recommendation-as-GenerationKompresja przestrzeni itemów dla LLM-based rekomendacji (vocabulary kodów zamiast milionów atomic IDs)

Jak działa

Pipeline ma trzy fazy. Faza 1 (offline, raz na katalog): dla każdego itemu content encoder (np. Sentence-T5) wylicza embedding z atrybutów tekstowych; RQ-VAE z N hierarchicznymi kodebookami kwantyzuje embedding na N-tuple kodów dyskretnych — to SID itemu. Faza 2 (offline, trening): sequence-to-sequence Transformer (np. T5) trenowany na sesjach użytkowników reprezentowanych jako sekwencje SIDs, z next-SID prediction loss. Faza 3 (online, inference): dla danego użytkownika system bierze jego ostatnie interakcje (jako sekwencja SIDs), karmi Transformer i beam-search generuje top-K kandydatów następnych SIDs, każdy dekodowany z powrotem na konkretny item z katalogu.

Rozwiązany problem

Klasyczne systemy rekomendacji opierają się na atomic IDs (jednorazowych identyfikatorach itemów) lub gęstych embeddingach z nearest neighbor search. Atomic IDs nie mają wewnętrznej semantyki (item_42851 nie informuje o niczym), wymagają osobnego embedding lookup dla każdego itemu i nie skalują się dobrze w katalogach setek milionów itemów. Embedding retrieval z ANN search wymaga utrzymywania ogromnych indeksów i traci semantyczną strukturę między itemami. Nie radzą sobie też dobrze z cold-start.

Kluczowe mechanizmy

Content encoder (np. Sentence-T5) — generuje gęste embeddingi semantyczne z opisowych atrybutów itemu

Residual-Quantized VAE (RQ-VAE) — hierarchiczna kwantyzacja embeddingu na N kodów: każda warstwa koduje residuum poprzedniej

N hierarchicznych kodebookow (typowo 4 warstwy × 256–8192 wpisów na warstwę) z uczonymi wektorami centroidów

Sequence-to-sequence Transformer (np. T5) trenowany next-SID prediction loss na sekwencjach SIDs sesji użytkowników

Beam-search dekodowanie na inference: model autoregresyjnie generuje top-K kandydatów następnego SID

Tie-breaking suffix dla kolizji (rzadkich, ale możliwych — różne itemy z identyczną krotką kodów)

Hierarchiczna semantyka: blisko-semantyczne itemy współdzielą prefiksy SIDs, co poprawia cold-start i generalizację

Mocne strony i ograniczenia

Mocne strony

✓Radykalnie redukuje rozmiar słownika rekomendacji (z setek milionów atomic IDs do tysięcy kodów × N warstw)

✓Naturalna obsługa cold-start: nowe itemy z podobną semantyką dziedziczą prefiksy SIDs po istniejących

✓Eliminuje konieczność utrzymywania osobnego ANN indeksu — kandydaci generowani bezpośrednio przez model

✓Hierarchiczna struktura ułatwia LLM-based rekomendację (tokeny SID są wąskim słownikiem, podobnym do BPE tokenów)

✓Świetnie skaluje się z rozmiarem modelu — większe Transformery przewidują SIDs lepiej

✓Modalność-agnostyczne: wystarczy zmienić content encoder (T5 dla tekstu, Qwen-VL dla wideo)

✓Wykazana SOTA na standardowych benchmarkach (Amazon Beauty/Sports/Toys w oryginalnym TIGER)

Ograniczenia

✗Wymaga osobnego treningu RQ-VAE i okresowego retrainingu przy znaczących zmianach katalogu (drift dystrybucji embeddingów)

✗Kolizje SIDs (różne itemy z identyczną krotką kodów) wymagają obsługi przez tie-breaking suffix lub augmentację

✗Trafność rekomendacji jest ograniczona przez jakość underlying content encoder — słaby embedding = słabe SID

✗Trudność w łączeniu signal behawioralny (collaborative filtering) z czysto semantycznymi SIDs — niezbędne dodatkowe mechanizmy

✗Pierwszy kodebook dominuje (koduje większość wariancji), co powoduje nierównomierne wykorzystanie kolejnych warstw bez specjalnej regularyzacji

✗Beam search ograniczony do top-K — model nie generuje rozsądnych itemów dla użytkowników o bardzo długoogoniastych zainteresowaniach

Komponenty

Content EncoderMapowanie itemu na gęstą reprezentację semantyczną

Pre-trenowany model encodera (oryginalnie Sentence-T5) który przyjmuje atrybuty itemu (np. tytuł, opis, kategorię) i zwraca gęsty wektor embeddingu w przestrzeni semantycznej. Dla modalności innych niż tekst używa się analogicznych encoderów multimodalnych (np. CLIP, Qwen2.5-VL dla wideo).

Oficjalna

Residual-Quantized VAE (RQ-VAE)Konwersja gęstego embeddingu na krotkę dyskretnych kodów (SID)

Mechanizm hierarchicznej kwantyzacji embeddingu na N dyskretnych kodów. Pierwsza warstwa znajduje najbliższy centroid w pierwszym kodebooku; druga aproksymuje residuum z pierwszej; trzecia residuum z drugiej; itd. Każda warstwa ma własny kodebook (typowo 256–8192 wpisów). Trenowany jointly z encoderem przez reconstruction loss + commitment loss.

Oficjalna

Hierarchiczne kodebookiSłownik dyskretnych jednostek z których budowane są SIDs

N osobnych kodebookow (jeden na warstwę), każdy z C uczonymi wektorami centroidów (typowo C=256 lub C=8192). Trenowane przez RQ-VAE razem z encoderem. Łączny rozmiar słownika SIDs to N × C — drastycznie mniej niż liczba itemów w katalogu (setki milionów).

Sequence-to-Sequence TransformerAutoregresyjna generacja SIDs jako Generative Retrieval

W oryginalnej pracy (TIGER) jest to model T5. Przyjmuje na wejściu sekwencję SIDs reprezentujących interakcje użytkownika w sesji i autoregresyjnie przewiduje SID następnego itemu, którym użytkownik prawdopodobnie się zainteresuje. Trenowany standard next-token prediction loss na sekwencjach kodów.

Oficjalna

Implementacja

Pułapki implementacyjne

Kolizje SIDsŚrednia

Skończony rozmiar kodebookow oznacza, że różne itemy mogą wylądować z identyczną krotką kodów (kolizja). Wraz ze wzrostem katalogu prawdopodobieństwo kolizji rośnie.

Rozwiązanie:Dodanie tie-breaking suffix (np. dodatkowego unikalnego tokena) lub augmentacja przez randomizowane permutacje kolejności kodów dla zdolności modelu do rozróżniania.

Drift dystrybucji embeddingów po dodaniu nowych itemówŚrednia

Gdy znacząca część katalogu się zmienia (nowe kategorie, nowe trendy), oryginalne kodebooki RQ-VAE mogą nie pokrywać już dobrze przestrzeni embeddingów, prowadząc do gorszej kwantyzacji.

Rozwiązanie:Okresowy retraining RQ-VAE na świeżych embeddingach lub używanie online clustering (np. RQ-K-means inkrementalny) dla aktualizacji centroidów bez pełnego retreningu.

Dominacja pierwszej warstwy kodebookówŚrednia

Bez specjalnej regularyzacji pierwszy kodebook absorbuje większość wariancji embeddingów, a kolejne warstwy aproksymują tylko drobne residua — co prowadzi do nierównomiernego wykorzystania słownika.

Rozwiązanie:Stosowanie commitment loss z wagami per-warstwa, regularyzacji entropii lub równomiernego sampling kodów podczas treningu RQ-VAE.

Ewolucja

Oryginalny paper · 2023 · NeurIPS 2023 (Google Research, arXiv 2305.05065) · Shashank Rajput

Recommender Systems with Generative Retrieval

Shashank Rajput, Nikhil Mehta, Anima Singh, Raghunandan H. Keshavan, Trung Vu, Lukasz Heldt, Lichan Hong, Yi Tay, Vinh Q. Tran, Jonah Samost, Maciej Kula, Ed H. Chi, Maheswaran Sathiamoorthy

2017

VQ-VAE — fundament dyskretnej kwantyzacji embeddingów

Van den Oord et al. wprowadzają Vector Quantized Variational Autoencoder, fundament wszystkich późniejszych technik kwantyzacji ciągłych embeddingów na dyskretne kody.

2022

RQ-VAE — Residual Quantization w generatywnym audio i image

Lee et al. (Autoregressive Image Generation using Residual Quantization, CVPR 2022) i Zeghidour et al. (SoundStream) popularyzują hierarchiczną kwantyzację residualną — pierwowzór dla SIDs.

2023

TIGER — Semantic IDs jako Generative Retrieval dla rekomendacji

Punkt przełomowy

Rajput et al. (Google Research, NeurIPS 2023) publikują Recommender Systems with Generative Retrieval — pierwsze użycie SIDs jako celów autoregresyjnej generacji w rekomendacji. SOTA na Amazon Beauty/Sports/Toys.

2025

Industrial-scale GRM z SIDs (Deng et al., Xue et al.)

Pierwsze wdrożenia generative recommendation models opartych na SIDs w środowiskach produkcyjnych z setkami milionów użytkowników.

2026

Disentangled SIDs (D-SIDs) w paradygmacie RaG (Kuaishou)

Punkt przełomowy

Kuaishou rozszerza SIDs do Disentangled SIDs rozdzielających content i creative semantykę wideo. D-SIDs są kluczowym interfejsem latentnym paradygmatu Recommendation-as-Generation, generując personalizowane wideo on demand zamiast retrieval ze statycznej puli.

RaG (koncept)