Robotyka
Action-Conditioned Video Generation
2023AktywnyAktualizacja: 5 maja 2026Opublikowany
Metoda generowania wideo, w której model przewiduje przyszłe klatki sceny przy założeniu, że agent wykona określoną sekwencję akcji. Stanowi fundament generatywnych symulatorów w robotyce.
Kluczowa
innowacja
Generowanie przyszłych klatek wideo warunkowane konkretną akcją robota, umożliwiając symulację konsekwencji działań przed ich wykonaniem.
Kategoria
Robotyka
Poziom abstrakcji
Pattern
Zastosowania
Generatywna symulacja robotycznaTrening polityk offlineEwaluacja politykPlanowanie oparte na modeluData augmentation
Jak działa
Model przyjmuje klatki historyczne (kontekst wideo) oraz zakodowany wektor akcji. Poprzez mechanizm uwagi krzyżowej lub konkatenację do strumienia tokenów, wektor akcji moduluje generowanie kolejnych klatek. Model jest trenowany na parach (obserwacja, akcja, następna obserwacja) z danych teleoperation lub play data.
Rozwiązany problem
Koszt i ryzyko zbierania danych w świecie rzeczywistym; potrzeba fotorealistycznego symulatora dostępnego bez specjalistycznego oprogramowania fizycznego.
Ewolucja
2023
UniSim (Google) — pierwsza skala: model wideo jako symulator robotyczny
Punkt przełomowy2024
Genie 2 (DeepMind) — interaktywny generatywny symulator 3D warunkowany akcją
2025
UnifoLM-WMA-0 (Unitree) — WMA framework: action-conditioned video generation jako Simulation Engine
Szczegóły techniczne
Wymagania sprzętowe
Podstawowe
Generowanie wideo wysokiej rozdzielczości w pętli z obserwacją wymaga GPU z dużą przepustowością.