VLA-JEPA: latentny model świata dla robotów zamiast pikseli

Chiński zespół z USTC, Zhongguancun Academy, SJTU i Eastern Institute of Technology Ningbo opracował VLA-JEPA — pierwszy framework łączący modele Vision-Language-Action z latentnym modelem świata, zintegrowany z biblioteką LeRobot. Zamiast przewidywać przyszłe klatki w przestrzeni pikselowej, model uczy się dynamiki świata w przestrzeni utajonej, wzorując się na podejściu JEPA zaproponowanym przez Yanna LeCuna. Praca przyjęta na ECCV 2026 zyskała uwagę LeCuna i Saininga Xie — i wykazała, że zaledwie 13 trajektorii wystarczy do ukończenia prostych zadań montażowych.

Najważniejsze w skrócie

VLA-JEPA to JEPA-owy framework pretreningu modeli VLA — pierwszy przeniesiony do środowiska LeRobot od Hugging Face
Backbone: Qwen3-VL + enkoder V-JEPA2 — predykcja przyszłego stanu w latent space zamiast pikseli
LIBERO: 97,2% średniego sukcesu (najwyższy wynik na suitach Object i LIBERO-10)
LIBERO-Plus (OOD z 7 typami zakłóceń): 78,1% — pierwsze miejsce w 5 z 7 wymiarów
Kod, wagi i dane dostępne publicznie na GitHub (ginwind/VLA-JEPA) i Hugging Face

Cztery klasy problemu z istniejącymi metodami

Modele VLA napotykają trwały problem danych: rzeczywiste trajektorie robotyczne są kosztowne, ograniczone co do skali i wąskie tematycznie. Metody latent action próbują to obejść, trenując model wstępnie na filmach bez oznaczeń działań. Problem w tym, że istniejące metody używają przyszłej klatki jako sygnału nadzoru — a wideo w dużej mierze koduje zmiany oświetlenia, tła i ruchu kamery, nie faktycznych działań manipulacyjnych.

VLA-JEPA diagnozuje cztery klasy problemu. Po pierwsze, cele pikselowe wypychają reprezentację w stronę wyglądu zamiast dynamiki. Po drugie, szumy ruchowe w filmach internetowych dominują nad sygnałem z faktycznej manipulacji. Po trzecie, wyciek informacji przez jednoczesne użycie bieżącej i przyszłej obserwacji degeneruje latent action do postaci kompresji następnej klatki. Po czwarte, wieloetapowe pipeline'y są podatne na niespójności między fazami treningu.

Rozwiązanie jest eleganckie: przyszła klatka przestaje być wejściem modelu, staje się wyłącznie sygnałem nadzoru. Koder celu (target encoder) koduje przyszły stan i służy jako cel wyrównania, podczas gdy predyktor działa na bieżącym stanie i latentnym tokenie akcji — bez dostępu do przyszłości. To zamknięcie kanału wycieku wymusza, by latent action naprawdę kodował "dlaczego zmieni się stan", a nie "jak wygląda następna klatka".

Architektura: Qwen3-VL z V-JEPA2 i flow matching

Model opiera się na Qwen3-VL jako backbone'ie wizualno-językowym. Klatki wideo przechodzą przez V-JEPA2 i są mapowane na reprezentacje stanu świata. Uczący się token latentnej akcji reprezentuje przejście między stanami. Predyktor na podstawie bieżącego stanu i tokenu akcji przewiduje przyszły latent state, który jest porównywany z wyjściem target encodera — nie z pikselami.

Trening przebiega w dwóch fazach. Pierwsza faza używa ludzkich filmów — ok. 220 tys. nagrań z Something-Something-v2 — i minimalizuje stratę wyrównania latentnego modelu świata. Druga faza dołącza głowicę akcji opartą na flow matching i trenuje na danych robotycznych (ok. 76 tys. trajektorii z DROID), dodając stratę predykcji akcji. Razem daje to prostszy, dwuetapowy pipeline w porównaniu z trzyetapowymi metodami konkurencji.

LIBERO i LIBERO-Plus: kiedy odporność się liczy

Na benchmarku LIBERO VLA-JEPA osiąga 97,2% średniego wskaźnika sukcesu. Najwyższy wynik w suitach Object i LIBERO-10 osiąga z mniejszą liczbą danych robotycznych niż silne linie bazowe takie jak OpenVLA-OFT (97,1%) czy pi0 (94,2%).

Prawdziwym testem jest LIBERO-Plus z wieloma typami zakłóceń dystrybucyjnych: kamera, robot, język, oświetlenie, tło, szum i układ. VLA-JEPA zajął pierwsze miejsce w 5 z 7 wymiarów, uzyskując 78,1% średnio — wobec 69,6% OpenVLA-OFT i 61,6% pi0-Fast. Autorzy interpretują to jako dowód, że latent action koduje zmiany stanu, a nie wizualne szablony.

Na SimplerEnv wyniki są bardziej zróżnicowane: 65,2% dla Google Robot i 57,3% dla WidowX. Co ważne, usunięcie ludzkich filmów z treningu w kilku zadaniach podnosiło wyniki — sygnał, że ludzkie wideo nie tworzy nowych umiejętności motorycznych, lecz stabilizuje istniejące.

13 trajektorii i drugie podejście: efekt ludzkich filmów

Na prawdziwym ramieniu Franka FR3 (chwytnik Robotiq 2F-85, trzy kamery D435) trening opierał się na 100 demonstracjach trzech klas zadań. VLA-JEPA regularnie po nieudanym pierwszym chwycie otwierał chwytnik i podejmował drugą próbę — zachowanie, którego pi0 i pi0.5 nie wykazywały stabilnie. Autorzy wiążą to z wiedzą zakodowaną z ludzkich nagrań, gdzie ponowne próby po niepowodzeniu są powszechne.

To właśnie jest — jak wskazuje praca — najcenniejszy efekt ludzkich filmów: nie generowanie nowych umiejętności sterowania, lecz uzupełnianie "zdrowego rozsądku" o tym, jak postępować, gdy coś idzie nie tak. Fakt, że zaledwie 13 trajektorii wystarczyło do prostych zadań montażowych w LeRobot, sugeruje wysoki transfer wiedzy z pretreningu.

Dlaczego to ważne?

VLA-JEPA stawia konkretne pytanie: jak skalować modele robotyczne bez proporcjonalnego wzrostu kosztów zbierania trajektorii? Kluczowa reorientacja to potraktowanie ludzkich filmów jako źródła priorów dynamiki świata, a nie jako ubogiego substytutu danych z etykietami akcji. To semantycznie inne pytanie prowadzi do innej architektury — i przynosi inny rodzaj odporności.

Latentny cel predykcji jest odporniejszy na zakłócenia wizualne niż podejście pikselowe nie dlatego, że aktywnie filtruje szum — ale dlatego, że V-JEPA2, ucząc się z samego wideo, selektywnie koduje zmiany istotne dla przyczynowości. Model nie próbuje zapamiętać, jak wygląda scena — uczy się, jak zmienia się jej stan w odpowiedzi na działanie. Ta jakościowa różnica jest widoczna w wynikach LIBERO-Plus.

Integracja z LeRobot — popularną biblioteką Hugging Face do robotyki — obniża barierę reprodukcji i dalszego rozwijania wyników przez społeczność.

Co dalej?

Kod, wagi i dane opublikowano na GitHub (ginwind/VLA-JEPA) i Hugging Face — pełna reprodukcja możliwa od dnia publikacji
ECCV 2026 jest bezpośrednim forum konfrontacji z innymi metodami latent action — w tym z metodami opartymi na V-JEPA2 i przyszłymi iteracjami DROID
Otwarte pytanie: czy latentna dynamika zbudowana z filmów internetowych utrzyma przewagę przy pełnoskalowym pretreningu (powyżej 1 miliona trajektorii robotycznych)

Źródła

arXiv — VLA-JEPA: Enhancing Vision-Language-Action Model with Latent World Model
GitHub — ginwind/VLA-JEPA
VLA-JEPA — Strona projektu
机器之心 (Jiqizhi) — LeCun、谢赛宁转发的世界模型与VLA共融方案：中关村学院ECCV2026—VLA-JEPA