Robocikowo>ROBOCIKOWO
Robotyka

Action-Conditioned Video Generation

2023AktywnyAktualizacja: 5 maja 2026Opublikowany
Metoda generowania wideo, w której model przewiduje przyszłe klatki sceny przy założeniu, że agent wykona określoną sekwencję akcji. Stanowi fundament generatywnych symulatorów w robotyce.
Kluczowa innowacja
Generowanie przyszłych klatek wideo warunkowane konkretną akcją robota, umożliwiając symulację konsekwencji działań przed ich wykonaniem.
Kategoria
Robotyka
Poziom abstrakcji
Pattern
Zastosowania
Generatywna symulacja robotycznaTrening polityk offlineEwaluacja politykPlanowanie oparte na modeluData augmentation

Jak działa

Model przyjmuje klatki historyczne (kontekst wideo) oraz zakodowany wektor akcji. Poprzez mechanizm uwagi krzyżowej lub konkatenację do strumienia tokenów, wektor akcji moduluje generowanie kolejnych klatek. Model jest trenowany na parach (obserwacja, akcja, następna obserwacja) z danych teleoperation lub play data.

Rozwiązany problem

Koszt i ryzyko zbierania danych w świecie rzeczywistym; potrzeba fotorealistycznego symulatora dostępnego bez specjalistycznego oprogramowania fizycznego.

Ewolucja

2023
UniSim (Google) — pierwsza skala: model wideo jako symulator robotyczny
Punkt przełomowy
2024
Genie 2 (DeepMind) — interaktywny generatywny symulator 3D warunkowany akcją
2025
UnifoLM-WMA-0 (Unitree) — WMA framework: action-conditioned video generation jako Simulation Engine
Szczegóły techniczne

Wymagania sprzętowe

Podstawowe

Generowanie wideo wysokiej rozdzielczości w pętli z obserwacją wymaga GPU z dużą przepustowością.