Cosmos 3

3 · Rodzina: Cosmos

Otwarty model fundamentowy świata (omnimodel) NVIDIA dla fizycznej AI. Łączy rozumowanie wizualne, generację multimodalną i predykcję działań robotów.

✓ Aktywny✓ Publiczny dostęp⚖ Open weightsModel świataBazowy model robotycznyModel multimodalny📁 Cosmos

Parametry

65B (Super) / 16B (Nano)

parametrów

Data premiery

31 maja 2026

🏢NVIDIAProducent

Dostęp:APIDownloadHostedWdrożenie:☁ Cloud💻 Lokalnie📱 Na urządzeniu

Przegląd

Cosmos 3 to otwarty model fundamentowy świata (world foundation model) wydany przez NVIDIA na konferencji GTC Taipei podczas COMPUTEX 2026 (31 maja 2026). Jest pierwszym omni-modelem rodziny Cosmos z natywnym rozumowaniem, generacją świata i generacją akcji w jednej architekturze opartej na Mixture of Transformers (osobne bloki transformera dla rozumowania i generacji).

Model przetwarza i generuje dane w modalnościach: tekst, obraz, wideo, dźwięk otoczenia oraz akcje (wartości numeryczne — kąty stawów, pozycje chwytaka, trajektorie). Native action generation pozwala wykorzystywać Cosmos 3 jako bazę World Action Model (WAM) do post-treningu polityk robotycznych.

Rodzina obejmuje warianty: Cosmos 3 Super (65B parametrów, najwyższa dokładność fizyki, do post-treningu robotów i pojazdów autonomicznych), Cosmos 3 Nano (16B, lekki, zoptymalizowany pod szybkie wnioskowanie i polityki) oraz zapowiedziany Cosmos 3 Edge (wariant on-device, w przyszłości). Dodatkowe warianty na Hugging Face: Cosmos3-Super-Image2Video, Cosmos3-Super-Text2Image, Cosmos3-Nano-Policy-DROID.

Wagi i kod udostępnione są na licencji OpenMDW 1.1 (Linux Foundation), pozwalającej na trening, modyfikacje, redystrybucję i wdrożenie. Cosmos 3 Nano post-trained zajął pierwsze miejsce na leaderboardach RoboLab i RoboArena, a warianty Cosmos 3 prowadzą na otwartych leaderboardach Artificial Analysis, Physics-IQ, R-Bench, PAI-Bench, VANTAGE-Bench oraz TAR challenge. Zastosowania: trening polityk robotów, generowanie danych syntetycznych, symulacja środowisk dla pojazdów autonomicznych, agenci wideo do analityki przemysłowej.

Klasyfikacja

Model świataBazowy model robotycznyModel multimodalny

Rodzina: Cosmos

Zastosowania

Trening polityk robotów Manipulacja robotyczna

Dostęp i wdrożenie

APIPobieranieHostowane

ChmuraLokalnieNa urządzeniu

Wagi: Open weights

Kluczowe parametry

🧩 Parametry: 65B (Super) / 16B (Nano)

✓ Fine-tuning

📥 Wejście: tekst, obraz, wideo, audio…

Robotyka

Robot controlRobot manipulationBimanual manipulationEmbodied task planningScene understandingSpatial reasoningSpatial predictionEnvironment modelingVisual grounding

Platformy

NVIDIA Cosmos

Specyfikacja techniczna

Parametry

65B (Super) / 16B (Nano)

parametrów

Licencja

OpenMDW 1.1 (Linux Foundation)

Funkcje:✓ Fine-tuning

Modalności

⬇ Wejście (Input)

textimagevideoaudiorobot_sensorsrobot_state_data

⬆ Wyjście (Output)

textimagevideoaudiorobot_actionsrobot_commandsmotion_trajectories

Możliwości i zastosowania

Natywne możliwości modelu

Generowanie danych syntetycznych

Generowanie syntetycznych zbiorów danych zachowujących statystyczne właściwości oryginału, używanych do uczenia modeli, testów i ochrony prywatności.

Kategoria: structured_generation

Rozumowanie

Zdolność modelu do logicznego wnioskowania i rozwiązywania złożonych problemów.

Kategoria: reasoning

Rozumienie wideo

Zdolność analizy wideo poprzez przetwarzanie sekwencji klatek.

Kategoria: video

Rozumienie multimodalne

Zdolność modelu do łączenia i interpretowania informacji z więcej niż jednej modalności, np. tekstu i obrazu.

Kategoria: multimodal

Planowanie

Tworzenie i realizacja planów działania dla złożonych zadań.

Kategoria: planning

Robotyka

Robot controlRobot manipulationBimanual manipulationEmbodied task planningScene understandingSpatial reasoningSpatial predictionEnvironment modelingVisual grounding

Dziedziny zastosowań

Trening polityk robotów Manipulacja robotyczna

Architektura techniczna

Rdzeń architektury (Core Architecture)

TRTransformer

Forma modelu (Model Form)

WMWorld Models WAWAM

Wdrożenie i bezpieczeństwo

☁ Dostępny na platformach

☁NVIDIA CosmosPlatforma

Źródła i powiązane strony

6 źródeł

WebNVIDIA Cosmos — Physical AI with World Foundation Modelsnvidia.com BlogHow Cosmos 3 Helps Physical AI Think Before It Acts (NVIDIA Blog)blogs.nvidia.com RepoCosmos3 collection on Hugging Facehuggingface.co Reponvidia/Cosmos on GitHubgithub.com RaportCosmos 3 Technical Reportresearch.nvidia.com WebNVIDIA Launches Cosmos 3, the Open Frontier Foundation Model for Physical AInvidianews.nvidia.com

Przeglądaj powiązane tematy

📁 Cosmos 🌐 Trening polityk robotów 🌐 Manipulacja robotyczna 🧠 Transformer 🧠 World Models 🧠 WAM ☁ NVIDIA Cosmos Wszystkie modele world model Wszystkie modele robotics foundation model