NVIDIA otwiera kod DreamDojo: Jak 44 tysiące godzin wirtualnych „snów” ma rozwiązać deficyt danych w robotyce

Firma NVIDIA oficjalnie dołączyła do technologicznego wyścigu o stworzenie zaawansowanego „Modelu Świata” (World Model) w 2026 roku, prezentując projekt DreamDojo. Jest to udostępniony w modelu open-source fundamentalny algorytm, który potrafi symulować skomplikowane zadania robotyczne i interakcje ze środowiskiem wyłącznie na podstawie analizy pikseli z nagrań. Dr Jim Fan z firmy NVIDIA określił ten system mianem „Symulacji 2.0”. Jego głównym celem jest ominięcie klasycznego problemu „wąskiego gardła danych” w robotyce poprzez przyswajanie intuicyjnych praw fizyki na bazie aż 44 000 godzin filmów z udziałem ludzi.

Premiera ta stanowi przełomowy moment w procesie przechodzenia branży na symulacje generatywne, stawiając projekt obok takich rozwiązań jak 1XWM od 1X Technologies czy Genie 3 od Google DeepMind. Tym, co wyraźnie wyróżnia podejście NVIDII, jest pełne otwarcie dostępu do wag modelu, kodu źródłowego oraz samych zbiorów danych. Firma zachęca tym samym globalną społeczność naukową do dalszego rozwijania jej autorskiej koncepcji „World Action Model”.

Nowe podejście do potężnych zbiorów danych

Fundamentem projektu DreamDojo jest zbiór nagrań wideo DreamDojo-HV (Human Videos). NVIDIA podkreśla, że jest to dotychczas największa i najbardziej zróżnicowana baza filmów wykorzystana do wstępnego trenowania modeli świata. Podczas gdy starsze bazy dla robotów (takie jak RT-1 czy BridgeData V2) oferowały materiały rzędu setek godzin, zbiór DreamDojo-HV gromadzi aż 44 711 godzin nagrań z perspektywy pierwszej osoby, obejmujących 6015 unikalnych czynności i ponad milion (1 135 000) trajektorii ruchu.

Różnorodność zebranego materiału robi ogromne wrażenie: baza ta zawiera 96 razy więcej umiejętności i 2000 razy więcej scenerii niż najbogatsze ogólnodostępne zbiory do uczenia maszyn. Obserwując i analizując ludzi wykonujących codzienne obowiązki – takie jak składanie prania, montaż przedmiotów czy posługiwanie się narzędziami – model nabiera uniwersalnego zrozumienia fizyki. Tę wiedzę można następnie łatwo przenieść na maszyny o różnej budowie i specyfikacji.

Przyjęta strategia mocno przypomina koncepcję „900-godzinnego pomostu” stosowaną przez 1X Technologies. Ona również opiera się na analizie nagrań wideo z perspektywy człowieka, aby uczyć system „intuicyjnej fizyki”, której często brakuje przy zastosowaniu samej regresji poleceń motorycznych.

Jak uczyć roboty z pasywnych nagrań?

Główną przeszkodą w trenowaniu sztucznej inteligencji na zwykłych, pasywnych filmach z ludźmi jest brak etykiet dotyczących konkretnych akcji (np. siły użytej w stawach). Widok osoby podnoszącej kubek nie daje robotowi precyzyjnych danych motorycznych. Aby zniwelować tę lukę, badacze NVIDII wprowadzili innowacyjną koncepcję „ciągłych akcji ukrytych” (continuous latent actions).

W tym celu wytrenowano czasoprzestrzenny model typu Transformer (posiadający 700 milionów parametrów), aby wyciągał z samych zmian wizualnych między klatkami filmu semantycznie sensowne „akcje zastępcze” (proxy actions). Dzięki temu algorytm może traktować dowolne nagranie z człowiekiem tak, jakby zawierało ono precyzyjne komendy ruchowe. Otwiera to drogę do tzw. uogólniania wiedzy (zero-shot generalization) na przedmioty i otoczenia, z którymi maszyna nigdy wcześniej nie miała do czynienia podczas treningu.

Sterowanie na żywo i wirtualne symulacje przyszłości

Użyteczność modeli świata jest często ograniczana przez powolne tempo wnioskowania (generowania odpowiedzi). Aby umożliwić praktyczne zastosowania modelu, NVIDIA zoptymalizowała procesy w DreamDojo, osiągając prędkość działania w czasie rzeczywistym na poziomie 10,81 FPS (klatek na sekundę). Odblokowuje to możliwości dla kilku kluczowych zastosowań:

Teleoperacja na żywo: Operatorzy mogą używać kontrolerów VR (takich jak w goglach PICO) do sterowania wirtualnym robotem bezpośrednio w wygenerowanym „śnie” w czasie rzeczywistym.
Ocena strategii działania: Wskaźniki sukcesu osiągane w symulacjach DreamDojo wykazują niemal idealną korelację liniową ze światem rzeczywistym (współczynnik korelacji Pearsona wynosi r=0.995). Pozwala to inżynierom oceniać postępy algorytmów bez konieczności uruchamiania sprzętu fizycznego.
Planowanie oparte na modelu: Dzięki równoległemu symulowaniu różnych wariantów działań i wybieraniu optymalnej „przyszłości”, NVIDIA odnotowała 17% wzrost skuteczności w zadaniu polegającym na pakowaniu owoców.

Sytuacja w branży: Zmiana paradygmatu w robotyce

Premiera DreamDojo zbiega się w czasie z gorącą debatą na temat tego, jak właściwie powinien funkcjonować „mózg” humanoidalnego robota. Choć wiele firm stawia obecnie na modele wizyjno-językowo-ruchowe (VLA), znani krytycy – na czele z Yannem LeCunem – twierdzą, że takie systemy są zbyt mocno oparte na dużych modelach językowych (LLM) i brakuje im podstawowego zdrowego rozsądku.

Koncepcja NVIDII idealnie wpisuje się w poglądy promowane przez laboratoria AMI Labs pod kierownictwem LeCuna, stawiając wyobraźnię wizualną i intuicyjną fizykę ponad logiczne wnioskowanie oparte na tekście. Zbudowany na otwartym modelu dyfuzyjnym Cosmos-Predict2.5, projekt DreamDojo to wyraźna próba stworzenia przez NVIDIĘ uniwersalnej platformy dla nadchodzącej ery „fizycznej sztucznej inteligencji” (Physical AI).

NVIDIA udostępniła publicznie dwie wersje swojego modelu – mniejszą (2B parametrów) i większą (14B parametrów) – z których obie były wstępnie trenowane z wykorzystaniem 256 procesorów graficznych NVIDIA H100. Dzieląc się tymi zasobami ze światem, firma ma nadzieję znacząco przyspieszyć rozwój wszechstronnych robotów, które będą potrafiły „myśleć” i „wyobrażać sobie” rozwiązania, sprawnie radząc sobie z chaotyczną rzeczywistością fizycznego świata.