Otwarty, 7-miliardowy reasoning vision-language model NVIDIA dla Physical AI i robotyki. Rozumie przestrzeń, czas i fizykę, działa jako model planujący dla agentów embodied.
Parametry
7B (≈8B total: ViT 0.68B + LLM 7.07B + projection 0.55B)
parametrów
Data premiery
17 maja 2025
Dostęp:DownloadAPIHostedWdrożenie:💻 Lokalnie☁ Cloud
Przegląd
Dostęp i wdrożenie
PobieranieAPIHostowane
LokalnieChmura
Wagi: Open weights
Kluczowe parametry
🧩 Parametry: 7B (≈8B total: ViT 0.68B + LLM 7.07B + projection 0.55B)
✓ Fine-tuning
📥 Wejście: tekst, obraz, wideo
Robotyka
Embodied task planningScene understandingSpatial reasoningObject affordance understandingMotion planningSpatial prediction
Platformy
Specyfikacja techniczna
Parametry
7B (≈8B total: ViT 0.68B + LLM 7.07B + projection 0.55B)
parametrów
Licencja
NVIDIA Open Model License (commercial use)
Wymagania sprzętowe
Inferencja przez vLLM na GPU NVIDIA Hopper / Blackwell (testowane: H100, A100, GB200), precyzja BF16. Model 7B mieści się na pojedynczym GPU klasy serwerowej (np. H100 80GB). System operacyjny: Linux.
Funkcje:✓ Fine-tuning
Modalności
⬇ Wejście (Input)
textimagevideo
⬆ Wyjście (Output)
text
Możliwości i zastosowania
Natywne możliwości modelu
Rozumowanie
Zdolność modelu do logicznego wnioskowania, analizowania zależności i wyprowadzania odpowiedzi na podstawie przesłanek.
Kategoria: reasoning
Rozumowanie wieloetapowe
Zdolność modelu do rozwiązywania problemów wymagających kilku kolejnych kroków rozumowania.
Kategoria: reasoning
Rozumienie wideo
Zdolność modelu do analizy i interpretacji treści wideo — rozpoznawania akcji, ruchu, zdarzeń oraz relacji między obiektami w czasie.
Kategoria: video
Enkoder wizyjny
Zdolność modelu do kodowania obrazów i klatek wideo w gęste reprezentacje (embeddingi), wykorzystywane do dalszych zadań lub jako backbone dla modeli wizyjno-językowych.
Kategoria: vision
Planowanie
Zdolność modelu do wyznaczania sekwencji działań prowadzących do celu — przewidywania skutków akcji i wyboru optymalnej ścieżki w danym środowisku.
Kategoria: planning
Robotyka
Embodied task planningScene understandingSpatial reasoningObject affordance understandingMotion planningSpatial prediction
Dziedziny zastosowań
Wyniki benchmarków
7 benchmarków
RoboVQA
accuracy · embodied reasoning benchmark
87.3%
📄 Cosmos-Reason1 model card / paper (arXiv:2503.15558)
AV (Autonomous Vehicle)
accuracy · embodied reasoning benchmark
70.8%
📄 Cosmos-Reason1 model card / paper (arXiv:2503.15558)
BridgeDataV2
accuracy · embodied reasoning benchmark
63.7%
📄 Cosmos-Reason1 model card / paper (arXiv:2503.15558)
AgiBot
accuracy · embodied reasoning benchmark
48.9%
📄 Cosmos-Reason1 model card / paper (arXiv:2503.15558)
HoloAssist
accuracy · embodied reasoning benchmark
62.7%
📄 Cosmos-Reason1 model card / paper (arXiv:2503.15558)
RoboFail
accuracy · held-out generalization benchmark
57.2%
📄 Cosmos-Reason1 model card / paper (arXiv:2503.15558)
Embodied Reasoning (Average)
accuracy · average across embodied reasoning benchmarks
65.1%
📄 Cosmos-Reason1 model card / paper (arXiv:2503.15558)
Architektura techniczna
Rdzeń architektury (Core Architecture)
Forma modelu (Model Form)
Wdrożenie i bezpieczeństwo
☁ Dostępny na platformach
