Robocikowo>ROBOCIKOWO
Cosmos 3

Cosmos 3

3 · Rodzina: Cosmos
Otwarty model fundamentowy świata (omnimodel) NVIDIA dla fizycznej AI. Łączy rozumowanie wizualne, generację multimodalną i predykcję działań robotów.
✓ Aktywny✓ Publiczny dostęp⚖ Open weightsModel świataBazowy model robotycznyModel multimodalny📁 Cosmos
Parametry
65B (Super) / 16B (Nano)
parametrów
Data premiery
31 maja 2026
Dostęp:APIDownloadHostedWdrożenie:☁ Cloud💻 Lokalnie📱 Na urządzeniu

Przegląd

Cosmos 3 to otwarty model fundamentowy świata (world foundation model) wydany przez NVIDIA na konferencji GTC Taipei podczas COMPUTEX 2026 (31 maja 2026). Jest pierwszym omni-modelem rodziny Cosmos z natywnym rozumowaniem, generacją świata i generacją akcji w jednej architekturze opartej na Mixture of Transformers (osobne bloki transformera dla rozumowania i generacji).

Model przetwarza i generuje dane w modalnościach: tekst, obraz, wideo, dźwięk otoczenia oraz akcje (wartości numeryczne — kąty stawów, pozycje chwytaka, trajektorie). Native action generation pozwala wykorzystywać Cosmos 3 jako bazę World Action Model (WAM) do post-treningu polityk robotycznych.

Rodzina obejmuje warianty: Cosmos 3 Super (65B parametrów, najwyższa dokładność fizyki, do post-treningu robotów i pojazdów autonomicznych), Cosmos 3 Nano (16B, lekki, zoptymalizowany pod szybkie wnioskowanie i polityki) oraz zapowiedziany Cosmos 3 Edge (wariant on-device, w przyszłości). Dodatkowe warianty na Hugging Face: Cosmos3-Super-Image2Video, Cosmos3-Super-Text2Image, Cosmos3-Nano-Policy-DROID.

Wagi i kod udostępnione są na licencji OpenMDW 1.1 (Linux Foundation), pozwalającej na trening, modyfikacje, redystrybucję i wdrożenie. Cosmos 3 Nano post-trained zajął pierwsze miejsce na leaderboardach RoboLab i RoboArena, a warianty Cosmos 3 prowadzą na otwartych leaderboardach Artificial Analysis, Physics-IQ, R-Bench, PAI-Bench, VANTAGE-Bench oraz TAR challenge. Zastosowania: trening polityk robotów, generowanie danych syntetycznych, symulacja środowisk dla pojazdów autonomicznych, agenci wideo do analityki przemysłowej.

Klasyfikacja
Model świataBazowy model robotycznyModel multimodalny
Rodzina: Cosmos
Dostęp i wdrożenie
APIPobieranieHostowane
ChmuraLokalnieNa urządzeniu
Wagi: Open weights
Kluczowe parametry
🧩 Parametry: 65B (Super) / 16B (Nano)
✓ Fine-tuning
📥 Wejście: tekst, obraz, wideo, audio
Robotyka
Robot controlRobot manipulationBimanual manipulationEmbodied task planningScene understandingSpatial reasoningSpatial predictionEnvironment modelingVisual grounding
Platformy

Specyfikacja techniczna

Parametry
65B (Super) / 16B (Nano)
parametrów
Licencja
OpenMDW 1.1 (Linux Foundation)
Funkcje:Fine-tuning
Modalności
⬇ Wejście (Input)
textimagevideoaudiorobot_sensorsrobot_state_data
⬆ Wyjście (Output)
textimagevideoaudiorobot_actionsrobot_commandsmotion_trajectories

Możliwości i zastosowania

Natywne możliwości modelu
Generowanie danych syntetycznych
Generowanie syntetycznych zbiorów danych zachowujących statystyczne właściwości oryginału, używanych do uczenia modeli, testów i ochrony prywatności.
Kategoria: structured_generation
Rozumowanie
Zdolność modelu do logicznego wnioskowania i rozwiązywania złożonych problemów.
Kategoria: reasoning
Rozumienie wideo
Zdolność analizy wideo poprzez przetwarzanie sekwencji klatek.
Kategoria: video
Rozumienie multimodalne
Zdolność modelu do łączenia i interpretowania informacji z więcej niż jednej modalności, np. tekstu i obrazu.
Kategoria: multimodal
Planowanie
Tworzenie i realizacja planów działania dla złożonych zadań.
Kategoria: planning
Robotyka
Robot controlRobot manipulationBimanual manipulationEmbodied task planningScene understandingSpatial reasoningSpatial predictionEnvironment modelingVisual grounding

Architektura techniczna

Rdzeń architektury (Core Architecture)
Forma modelu (Model Form)

Wdrożenie i bezpieczeństwo

☁ Dostępny na platformach