Model (zazwyczaj transformer wideo lub sieć dyfuzyjna) przetwarza sekwencje klatek i jest trenowany do przewidywania zamaskowanych lub przyszłych klatek. Gradient płynie wstecz przez czas (BPTT), ucząc model koherencji czasowej i fizyki sceny. Po pretrain modelu dostraja się go do zadań downstream (sterowanie robotem, rozumienie sceny).
Brak skalowanych etykietowanych danych wizualnych; potrzeba nauczenia modelu fizyki sceny i dynamiki ruchu bez nadzoru ludzkiego.
Wideo 10s przy 30fps = 300 klatek × patch embeddings — sekwencje tokenów są 10-100× dłuższe niż tekst. Wymaga aggressive temporal subsampling lub frame patchification z dużym stride.
Niedokładna synchronizacja między nagraniami wideo a znacznikami akcji (np. opóźnienie HID) prowadzi do błędnych par wideo-akcja i degraduje jakość world model.
Masywne macierze uwagi na sekwencjach klatek wymagają wysokiej przepustowości GPU z tensor cores.