NVIDIA zaprezentowało na GTC Taipei model Cosmos 3 — otwarty fundacyjny model fizycznego AI, który integruje rozumowanie wizualne, symulację fizyczną i predykcję akcji robotycznych w jednej architekturze. Premiera realizuje plan architektury WAM (World Action Model) nakreślony przez Jima Fana, szefa działu Embodied Autonomous Research w NVIDIA, jako strategiczny kierunek dla robotyki.
Najważniejsze w skrócie
- Cosmos 3 dostępny jako open-weights pod licencją OpenMDW 1.1 (Linux Foundation) — na Hugging Face, GitHub i NVIDIA NIM
- Architektura mixture-of-transformers: blok reasoning (sceny, interakcje, relacje przestrzenno-czasowe) + blok generation (wideo, tekst, dźwięk, akcje)
- Natywna generacja akcji: model bezpośrednio wyprowadza kąty stawów, pozycje chwytaka i trajektorie bez pośrednictwa języka naturalnego
- Ranking nr 1 na czterech leaderboardach: Artificial Analysis, Physics-IQ, PAI-Bench i R-Bench
- Cosmos Coalition z Agile Robots, Skild AI i Generalist AI — standaryzacja otwartych modeli świata pod infrastrukturą DGX Cloud
Od VLA do WAM: zmiana paradygmatu
Dominującą architekturą w robotyce uczenia maszynowego były dotychczas modele VLA (Vision-Language-Action) — systemy przetwarzające obrazy przez głowę językową i na tej podstawie generujące akcje. Ich ograniczenie jest strukturalne: fizyka i ruchy robotów nie są dobrze opisywalne przez gramatykę języka naturalnego.
NVIDIA Cosmos 3 przesuwa punkt ciężaru na paradygmat WAM — model wideo-first, w którym fizyka i akcje są obywatelami pierwszej kategorii. Jensen Huang, CEO NVIDIA, podczas keynote ogłosił:
The big bang of physical AI is just around the corner thanks to breakthroughs in multimodal reasoning language, vision and world models.
Architektura mixture-of-transformers zaprojektowana jest tak, by blok reasoning interpretował ruchome sceny i interakcje obiektów, a blok generation produkował fizycznie zakorzenione wyniki.
Przy danych treningowych obejmujących miliardy próbek fizycznego AI, Cosmos 3 zajął pierwsze miejsce na czterech otwartych leaderboardach jednocześnie: Artificial Analysis, Physics-IQ, PAI-Bench i R-Bench — wszystkich oceniających dokładność generowania świata fizycznego.
Trzy warianty modelu
- Cosmos 3 Super — do post-treningu modeli robotycznych i AV wymagających najwyższej dokładności fizycznej
- Cosmos 3 Nano — lekki wariant zoptymalizowany pod kątem szybkiego wnioskowania wideo i reasoning nad akcjami
- Cosmos 3 Edge — zapowiedziany wariant do inferencji w czasie rzeczywistym bezpośrednio na fizycznym sprzęcie (dostępność ogłoszona jako przyszła)
W praktycznych testach polityki post-trenowane na Cosmos 3 Nano zajęły pierwsze miejsca na leaderboardach RoboLab i RoboArena — oceniających skuteczność sterowania robotami w symulowanych i rzeczywistych środowiskach.
Natywna generacja akcji i integracja sprzętowa
Kluczowa innowacja Cosmos 3 to działanie jako jeden uniwersalny model (tzw. omnimodel), który sam — bez pośrednictwa osobnych modułów — przekłada obraz wprost na ruchy robota (tzw. natywna generacja akcji). Zamiast używać treningu wizualno-językowego jako pomostu, system bezpośrednio wyprowadza numeryczne dane akcji: kąty stawów, pozycje chwytaka i punkty trajektorii przestrzennych. Dla złożonych zadań wymagających operowania obiema rękami jednocześnie (manipulacja bimanualna) robot otrzymuje natychmiastowe, reaktywne wskazówki.
Cosmos 3 jest ściśle powiązany z układami obliczeniowymi NVIDIA, na których ma docelowo działać. Jednocześnie na GTC Taipei firma zaprezentowała Isaac GR00T Reference Humanoid Robot — otwartą architekturę referencyjną opartą na procesorze Jetson AGX Thor T5000. Cosmos 3 pełni rolę bazowego silnika predykcyjnego, skracając cykl walidacji badań z miesięcy do dni.
Cosmos Coalition i strategia open-weights
NVIDIA ogłosiło Cosmos Coalition — globalną koalicję producentów modeli świata, deweloperów AI i firm robotycznych, która ma standaryzować otwarte fizyczne AI poprzez wspólne modele, metryki ewaluacji i duże przepływy treningowe na infrastrukturze DGX Cloud. Licencja OpenMDW 1.1 umożliwia trenowanie, modyfikowanie, redystrybucję i wdrażanie wag, dokumentacji i kodu źródłowego.
Partnerzy założyciele: Agile Robots (Monachium) używa Cosmos 3 do generowania trajektorii dla platformy Agile ONE; Skild AI z zasobami 1,4 mld USD z rundy Series C integruje model ze swoim oprogramowaniem orkiestracyjnym; Generalist AI — firma trenująca własne duże modele od zera — uzyskuje dostęp do syntetycznego silnika danych Cosmos 3 jako uzupełnienie własnych zbiorów.
Dlaczego to ważne?
Cosmos 3 to próba NVIDIA zajęcia pozycji infrastruktury bazowej dla fizycznego AI — analogicznie do roli, jaką CUDA — firmowa platforma NVIDIA pozwalająca wykorzystać karty graficzne (GPU) do obliczeń AI — odgrywa w uczeniu maszynowym. Licencja open-weights pod OpenMDW 1.1 jest kalkulowanym uderzeniem w zamknięte modele universal intelligence. Pozycjonując swój stos sprzętowy (GPU, Jetson, DGX Cloud) jako niezbędną warstwę obliczeniową, NVIDIA obstawia, że koszt compute będzie rósł szybciej niż koszt modelu.
Dla laboratoriów robotycznych jest to zmiana znacząca: polityki post-trenowane na Cosmos 3 Nano wygrywają na otwartych leaderboardach, co sugeruje, że oparcie własnego pipeline'u na Cosmos 3 jako baseline staje się poważną opcją konkurencyjną wobec trenowania modelu od zera. Skrócenie cyklu walidacji z miesięcy do dni przekłada się bezpośrednio na szybkość iteracji produktowej.
Co dalej?
- Cosmos 3 Edge — wariant do inferencji na krawędzi sieci — ma zostać udostępniony w przyszłości; jego release będzie kluczowy dla wdrożeń robotów przemysłowych bez połączenia z chmurą.
- Skild AI zapowiada integrację Cosmos 3 ze swoim oprogramowaniem orkiestracyjnym floty po przejęciu Fetch Robotics — wynik będzie testem dla skalowalności omnimodelu w środowiskach magazynowych.
- PAI-Bench i inne otwarte leaderboardy będą kluczowymi wskaźnikami adopcji — wzrost liczby modeli post-trenowanych na Cosmos 3 potwierdziłby tezę o efektywności cyfrowego koła zamachowego.
Źródła
- Humanoids Daily - NVIDIA Keynote: Cosmos 3 Realizes the World Action Model End Game
- Humanoids Daily - The Great Parallel: NVIDIA Jim Fan Outlines the Robotics End Game Strategy
- Humanoids Daily - NVIDIA GTC: Isaac GR00T Reference Humanoid Robot





