Robotyka

Action-Conditioned Video Generation

2023AktywnyAktualizacja: 5 maja 2026Opublikowany

Metoda generowania wideo, w której model przewiduje przyszłe klatki sceny przy założeniu, że agent wykona określoną sekwencję akcji. Stanowi fundament generatywnych symulatorów w robotyce.

Kluczowa innowacja

Generowanie przyszłych klatek wideo warunkowane konkretną akcją robota, umożliwiając symulację konsekwencji działań przed ich wykonaniem.

Kategoria

Robotyka

Poziom abstrakcji

Pattern

Poziom operacji

Sterowanie robotemModel

Zastosowania

Generatywna symulacja robotycznaTrening polityk offlineEwaluacja politykPlanowanie oparte na modeluData augmentation

Jak działa

Model przyjmuje klatki historyczne (kontekst wideo) oraz zakodowany wektor akcji. Poprzez mechanizm uwagi krzyżowej lub konkatenację do strumienia tokenów, wektor akcji moduluje generowanie kolejnych klatek. Model jest trenowany na parach (obserwacja, akcja, następna obserwacja) z danych teleoperation lub play data.

Rozwiązany problem

Koszt i ryzyko zbierania danych w świecie rzeczywistym; potrzeba fotorealistycznego symulatora dostępnego bez specjalistycznego oprogramowania fizycznego.

Implementacja

Pułapki implementacyjne

Temporal consistency — obiekty znikają między klatkamiŚrednia

Modele generatywne wideo często tracą spójność obiektów między klatkami, szczególnie przy gwałtownych ruchach kamery lub długich sekwencjach — krytyczny problem dla world models w robotyce.

Rozbieżność dystrybucyjna akcja→obrazŚrednia

Model uczony na parach akcja-wideo z jednego robota może nie generalizować na inne morfologie lub środowiska z powodu silnego overfittingu do specyficznego sygnału akcji.

Ewolucja

2023

UniSim (Google) — pierwsza skala: model wideo jako symulator robotyczny

Punkt przełomowy

2024

Genie 2 (DeepMind) — interaktywny generatywny symulator 3D warunkowany akcją

2025

UnifoLM-WMA-0 (Unitree) — WMA framework: action-conditioned video generation jako Simulation Engine