NVIDIA mapuje przyszłość robotyki na ścieżkę ewolucji LLM

Jim Fan, szef grupy Embodied Autonomous Research w NVIDIA, zaprezentował 10 maja 2026 roku na konferencji AI Ascent organizowanej przez Sequoia Capital kompletną mapę drogową dla robotyki — tzw. "Wielką Paralel". Fan przekonywał, że branża robotyczna właśnie replikuje czterostopniową ścieżkę ewolucji dużych modeli językowych i że fizyczny test Turinga stanie się faktem w ciągu 2–3 lat.

Najważniejsze w skrócie

NVIDIA identyfikuje cztery etapy dla robotyki: pre-trening, alignment, rozumowanie i autonomiczne badania
Nowy paradygmat WAM (World Action Model) zastępuje dotychczasowe modele VLA (Vision-Language-Action)
EgoScale: pre-trening na 20 854 godzinach ludzkiego wideo daje logarytmicznie rosnącą sprawność robotów
DreamDojo: neural symulator NVIDIA generuje dane treningowe ponad 10 FPS bez klasycznej fizyki
Fan prognozuje: pełne drzewo technologiczne robotyki domknięte do 2040 roku

Cztery etapy, jeden playbook

Analogia Fana jest precyzyjna. Modele językowe przeszły przez cztery fazy: nienadzorowany pre-trening na surowych danych, alignment z ludzką intencją, zdolność rozumowania krok po kroku i wreszcie autonomiczne generowanie wiedzy. Fan twierdzi, że robotyka jest teraz na pierwszym etapie tej ścieżki — i przyspiesza.

Kluczowym przesunięciem jest porzucenie modeli VLA na rzecz WAM. Modele klasy Vision-Language-Action — w tym flagowe GR00T N1.5 samego NVIDIA — Fan opisał jako "architekturę z ciężką głową": model językowy z doklejonym modułem akcji. Dobre w rozpoznawaniu obiektów, słabe w fizyce.

WAM odwraca priorytety. Zamiast przewidywać następne słowo, model przewiduje następny stan fizyczny — piksele i momenty sił stawów jednocześnie. NVIDIA pokazało DreamZero jako wczesną realizację tego podejścia.

Koniec teleoperacji jako standardu

Fan ogłosił "chwilę ciszy" dla teleoperacji — przez lata złotego standardu gromadzenia danych robotycznych. Problem jest fundamentalny: człowiek ma 24 godziny na dobę, roboty się psują, skalowanie jest niemożliwe. Miliony godzin danych potrzebnych do ogólnej inteligencji są poza zasięgiem tej metody.

Alternatywa NVIDIA to dane z ucieleśnionym człowiekiem. Dwa filary tej strategii: Universal Manipulation Interfaces (UMI) — proste aktuatory zakładane na ręce, zbierające dane bez użycia robota — oraz skalowanie egocentryczne, czyli trening na tysiącach godzin wideo z perspektywy pierwszej osoby.

Projekt EgoScale potwierdził to empirycznie: pre-trening na 20 854 godzinach ludzkiego wideo egzentrycznego ujawnił prawie idealną logarytmiczno-liniową zależność — opisywaną jako prawo skalowania. Teleoperacja stanowi poniżej 0,1% miksu treningowego.

Compute = środowisko = dane

Wąskim gardłem robotyki jest fizyczny świat. NVIDIA odpowiada symulacją neuralną. DreamDojo — open-source'owy symulator oparty na generatywnym wideo — zastępuje klasyczne równania fizyczne modelem uczonym na danych. Generuje stany czujników w czasie rzeczywistym z prędkością ponad 10 klatek na sekundę, co pozwala prowadzić uczenie przez wzmocnienie bezpośrednio w "przestrzeni snów" modelu.

Fan opisał to jako równanie nowej ery: moc obliczeniowa tworzy środowisko, a środowisko tworzy dane. W erze GPU Blackwell oznacza to, że limit danych przestaje być fizyczny — staje się budżetem obliczeniowym.

Nasze pokolenie urodziło się za późno, żeby odkrywać Ziemię, i za wcześnie, żeby odkrywać gwiazdy. Ale urodziliśmy się dokładnie w czasie, żeby rozwiązać problem robotyki.

Jim Fan, Lead of Embodied Autonomous Research, NVIDIA

Horizon 2040: fizyczne auto-badania

Fan nakreślił oś czasu dla "drzewa technologicznego robotyki". Najbliższy kamień milowy — fizyczny test Turinga — ma nastąpić w ciągu 2–3 lat. Za 14 lat, do 2040 roku, Fan prognozuje fazę Physical Auto Research: roboty projektujące i budujące własne następne generacje.

Warto zestawić tę wizję z aktualnym stanem branży. Figure produkuje jeden Figure 03 na godzinę w swoim zakładzie BotQ. 1X uruchomił fabrykę NEO w Hayward w Kalifornii z celem 100 000 sztuk rocznie do 2027. Genesis AI zaprezentowało model GENE-26.5 dedykowany manipulacji dekstery robotycznej. NVIDIA dostarcza infrastrukturę obliczeniową i modele fundamentalne. Elementy układanki są na miejscu — integracja jest otwartym pytaniem.

Dlaczego to ważne?

Prezentacja Fana to rzadki przypadek: czołowy inżynier firmy kluczowej dla całego ekosystemu publicznie ogłasza koniec jednego paradygmatu i inicjuje następny. VLA nie znikną z dnia na dzień, ale kierunek jest wyznaczony — i pochodzi od firmy, która dostarcza GPU dla praktycznie całej branży.

Strategia NVIDIA jest też odpowiedzią na konkretny problem ekonomiczny: gromadzenie danych robotycznych metodą teleoperacji nie skaluje się. Nowe podejście — dane ludzkie plus symulacja neuralna — czyni trening mniej zależnym od hardware'u robotycznego na wczesnych etapach, co obniża barierę wejścia dla startupów.

Jeśli logarytmiczno-liniowe prawo skalowania EgoScale jest odporne na domeny, konsekwencje są poważne: każda nowa godzina ludzkiego wideo będzie przekładać się na przewidywalny przyrost zdolności robotów. To zmienia rywalizację z wyścigu hardware'owego na wyścig o dane ludzkie.

Co dalej?

DreamDojo jest dostępny jako open-source — pierwsze zewnętrzne wdrożenia i benchmarki porównawcze z klasycznymi symulatorami (Isaac Sim, MuJoCo) powinny pojawić się w ciągu kilku miesięcy
Fan zapowiedział rozszerzenie projektu EgoScale — trwają prace nad skalowaniem do 100 000+ godzin wideo egzentrycznego; wyniki mają potwierdzić lub obalić prawo skalowania w nowych domenach
Robotics Summit & Expo (maj 2026) przyniesie kolejne ogłoszenia od partnerów NVIDIA wdrażających GR00T N1.5 i DreamZero w komercyjnych pilotażach