Model przyjmuje klatki historyczne (kontekst wideo) oraz zakodowany wektor akcji. Poprzez mechanizm uwagi krzyżowej lub konkatenację do strumienia tokenów, wektor akcji moduluje generowanie kolejnych klatek. Model jest trenowany na parach (obserwacja, akcja, następna obserwacja) z danych teleoperation lub play data.
Koszt i ryzyko zbierania danych w świecie rzeczywistym; potrzeba fotorealistycznego symulatora dostępnego bez specjalistycznego oprogramowania fizycznego.
Modele generatywne wideo często tracą spójność obiektów między klatkami, szczególnie przy gwałtownych ruchach kamery lub długich sekwencjach — krytyczny problem dla world models w robotyce.
Model uczony na parach akcja-wideo z jednego robota może nie generalizować na inne morfologie lub środowiska z powodu silnego overfittingu do specyficznego sygnału akcji.
Generowanie wideo wysokiej rozdzielczości w pętli z obserwacją wymaga GPU z dużą przepustowością.