21 lutego 2026 · 4 min lektury

NVIDIA potęguje możliwości humanoidów: SONIC otwiera nową erę w sterowaniu robotami

Okładka: NVIDIA potęguje możliwości humanoidów: SONIC otwiera nową erę w sterowaniu robotami

Zaledwie wczoraj firma NVIDIA udostępniła w modelu open-source swój najnowszy projekt SONIC (system skalowania śledzenia ruchu do naturalnego sterowania całym ciałem humanoida). Dzisiaj z kolei korporacja stawia kolejny krok w rozwoju „fizycznej sztucznej inteligencji”, prezentując zaawansowany model świata o nazwie DreamDojo. Podczas gdy DreamDojo koncentruje się na generatywnych symulacjach środowiskowych, SONIC odgrywa rolę fundamentalnego „mózgu” odpowiedzialnego za bezpośrednią motorykę. Jego zadaniem jest pokonanie historycznych barier w sterowaniu maszynami poprzez uczynienie ze śledzenia ruchu uniwersalnego i łatwo skalowalnego fundamentu dla całej robotyki.

Koniec z ręcznym projektowaniem nagród

Historycznie największym „wąskim gardłem” w robotyce humanoidalnej był problem wyboru i definiowania poszczególnych zadań. Tradycyjne metody uczenia ze wzmocnieniem wymagały od inżynierów żmudnego, ręcznego programowania skomplikowanych funkcji nagród dla każdej najmniejszej czynności – innych dla chodzenia, innych dla tańca, a jeszcze innych dla podnoszenia się z ziemi.

Badacze z NVIDII doszli do wniosku, że znacznie lepszym i łatwiejszym do skalowania podejściem jest śledzenie ruchu (motion tracking), ponieważ pozwala ono wykorzystać dekady gotowych badań nad technologią przechwytywania ruchu (mocap). Przenosząc to rozwiązanie na niespotykaną dotąd skalę, zespół wytrenował wszechstronny kontroler, wykorzystując do tego:

  • 100 milionów klatek różnorodnych danych ruchowych (co przekłada się na ponad 700 godzin nagrań).
  • 42 miliony parametrów – to gigantyczny skok w porównaniu do zaledwie kilku milionów, które zazwyczaj posiadają standardowe, dotychczasowe kontrolery.
  • 9000 godzin pracy procesorów graficznych (GPU) w celu osiągnięcia uniwersalnych zdolności śledzenia i koordynacji.

Tak ogromny zbiór danych sprawia, że sztuczna inteligencja niejako naturalnie przyswaja „ludzkie wzorce ruchowe”, całkowicie eliminując konieczność ręcznego dostrajania systemu przy uczeniu każdej nowej umiejętności.

Uniwersalna przestrzeń tokenów

Jedną z najważniejszych innowacji w systemie SONIC jest zastosowanie tzw. uniwersalnej przestrzeni tokenów. W przeciwieństwie do starszych rozwiązań, które wymagały wysoce wyspecjalizowanych mechanizmów konwersji (retargetingu) dla różnych typów wejść (jak np. silnik OmniRetarget od Amazona), SONIC bazuje na ujednoliconej architekturze typu koder-dekoder.

Takie podejście pozwala na bezproblemową obsługę skrajnie różnych źródeł danych. Dzięki temu jedna zintegrowana polityka sztucznej inteligencji potrafi płynnie przetwarzać:

  • Teleoperację w środowisku VR: Pełne sterowanie ruchem ciała robota za pomocą gogli i trackerów (np. marki PICO).
  • Przekład z wideo na ruch: Błyskawiczne szacowanie i odwzorowywanie ludzkiej motoryki na podstawie płaskiego obrazu ze zwykłej kamery internetowej (z płynnością ponad 60 klatek na sekundę).
  • Polecenia wielomodalne: Wykonywanie instrukcji bezpośrednio na podstawie komend tekstowych (np. „poruszaj się jak małpa”) lub dostosowywanie ruchów do określonego rytmu muzyki.

Mapując te wszystkie zróżnicowane bodźce w jedną, współdzieloną reprezentację, SONIC umożliwia płynny transfer umiejętności pomiędzy różnymi formami fizycznymi (cross-embodiment). To pozwala robotom (takim jak np. Unitree G1) wiernie naśladować ludzkie ruchy, pomimo wyraźnych różnic w budowie mechanicznej i anatomicznej.

Błyskawiczny „System 1” dla wszechstronnych maszyn

Twórcy pozycjonują projekt SONIC jako solidny kontroler typu „System 1” – czyli niezwykle szybką, odruchową warstwę zrobotyzowanego mózgu, która odpowiada za natychmiastową koordynację całego układu. Stanowi to wyraźny kontrast dla modeli wnioskowania typu „System 2” (takich jak Helix 02 od firmy Figure), które zajmują się powolniejszym, wysokopoziomowym planowaniem strategicznym.

Aby skutecznie połączyć te dwa światy – odruchowe sterowanie i odgórne planowanie – NVIDIA stworzyła zaawansowany planer kinematyczny działający w czasie rzeczywistym. Narzędzie to potrafi na nowo wygenerować przyszłe ruchy maszyny w czasie krótszym niż 5 milisekund, i to na standardowym laptopie. Umożliwia to operatorom płynne przeprowadzanie robota przez zadania związane z nawigacją, walką (np. boksowanie) czy zmianą postawy (czołganie się, klęczenie), bez konieczności ponownego trenowania bazowego algorytmu.

Firma udowodniła również, że SONIC bezbłędnie współpracuje z planowaniem opartym na modelach fundamentalnych. Zespół badawczy dostroił duży model wizyjno-językowo-ruchowy (VLA) GROOT N1.5 tak, aby wysyłał komendy w formacie gotowym do teleoperacji. Następnie SONIC przejmował kontrolę i wykonywał te instrukcje, osiągając imponujący, 95-procentowy wskaźnik sukcesu w mobilnych zadaniach polegających na przenoszeniu przedmiotów (pick-and-place).

Otwarte zasoby dla tworzenia „Fizycznej AI”

Podobnie jak miało to miejsce w przypadku premiery DreamDojo, NVIDIA zdecydowała się na pełne otwarcie projektu. Publicznie udostępniono wagi modelu SONIC, kod wnioskowania oraz kompleksową dokumentację. Główny badacz projektu, Zhengyi „Zen” Luo, zapewnił, że system będzie regularnie aktualizowany, a wkrótce udostępniony zostanie również kod treningowy oraz dalsze integracje z platformą GROOT.

Skuteczność tych nowatorskich rozwiązań została potwierdzona w praktyce na robocie Unitree G1. Maszyna osiągnęła stuprocentową skuteczność w 50 bardzo zróżnicowanych, rzeczywistych scenariuszach ruchowych – włączając w to skoki i niezwykle skomplikowaną manipulację połączoną z lokomocją. Ten spektakularny sukces w bezpośrednim przenoszeniu umiejętności z symulacji wirtualnej do rzeczywistości (sim-to-real transfer) do złudzenia przypomina niedawne osiągnięcia frameworka PHP od Amazona.

Jest to bardzo wyraźny sygnał dla całej branży, że dotychczasowa „przepaść w dostępie do danych” w robotyce zostaje ostatecznie zasypana za sprawą symulacji na gigantyczną skalę oraz potężnych bibliotek motion capture. Cały kod oraz sam model można już znaleźć w otwartym repozytorium na platformie GitHub pod nazwą GR00T-WholeBodyControl.

Udostępnij ten artykuł

Powiązane artykuły