Robocikowo>ROBOCIKOWO
Cosmos Reason

Cosmos Reason

1 · Rodzina: Cosmos
Otwarty, 7-miliardowy reasoning vision-language model NVIDIA dla Physical AI i robotyki. Rozumie przestrzeń, czas i fizykę, działa jako model planujący dla agentów embodied.
📦 Zarchiwizowany✓ Publiczny dostęp⚖ Open weightsModel rozumowaniaModel multimodalny📁 Cosmos
Parametry
7B (≈8B total: ViT 0.68B + LLM 7.07B + projection 0.55B)
parametrów
Data premiery
17 maja 2025
Dostęp:DownloadAPIHostedWdrożenie:💻 Lokalnie☁ Cloud

Przegląd

Cosmos Reason to otwarty, konfigurowalny reasoning vision-language model (VLM) opracowany przez NVIDIA w ramach platformy Cosmos do Physical AI i robotyki. Umożliwia robotom i agentom wizyjnym rozumowanie przy użyciu wiedzy uprzedniej, rozumienia fizyki i zdrowego rozsądku, aby rozumieć i działać w świecie rzeczywistym. Model rozumie przestrzeń, czas i podstawową fizykę oraz może pełnić rolę modelu planującego, wnioskując o kolejnych krokach agenta embodied.

Architektura

Multimodalny LLM złożony z Vision Transformera (ViT) jako enkodera wizji oraz gęstego (dense) Transformera jako modelu językowego. Architektura sieci: Qwen2.5-VL-7B-Instruct — Cosmos Reason1-7B jest post-trenowany na bazie Qwen2.5-VL-7B-Instruct. Liczba parametrów: ViT 675,76 mln + LLM 7,07 mld + warstwa projekcji 545 mln (łącznie ok. 8 mld). Wideo/obraz są zamieniane na tokeny przez enkoder wizji i projektor, łączone z promptem tekstowym i podawane do rdzenia, który stosuje chain-of-thought, by odpowiadać krok po kroku.

Trening

Model jest post-trenowany danymi fizycznego zdrowego rozsądku i embodied reasoning z użyciem supervised fine-tuningu (SFT) oraz reinforcement learningu (RL). Wykorzystuje zdolności rozumowania łańcuchowego (chain-of-thought) do rozumienia dynamiki świata bez anotacji człowieka. Dane treningowe obejmują m.in. RoboVQA, BridgeDataV2, AgiBot, HoloAssist oraz dane jazdy autonomicznej (AV) zbierane i anotowane przez NVIDIA.

Zastosowania

Kuracja i anotacja danych (automatyzacja wysokojakościowej anotacji masowych zbiorów), planowanie i rozumowanie robotów (mózg dla modeli vision-language-action — robot rozkłada złożone polecenia na zadania i wykonuje je), oraz agenci analizy wideo (ekstrakcja wglądów i analiza root-cause z dużych wolumenów wideo). Model jest gotowy do użytku komercyjnego.

Dostępność

Wagi Cosmos Reason1-7B dostępne publicznie na Hugging Face na licencji NVIDIA Open Model License (użytek komercyjny dozwolony). Kod post-trainingu w repozytorium nvidia-cosmos/cosmos-reason1. Runtime: vLLM. Testowany sprzęt: H100, A100, GB200 (NVIDIA Hopper / Blackwell), precyzja BF16. Kolejna generacja — Cosmos Reason 2 — została udostępniona w październiku 2025. Rodzina Cosmos została następnie scalona w omni-model Cosmos 3 (COMPUTEX 2026).

Klasyfikacja
Model rozumowaniaModel multimodalny
Rodzina: Cosmos
Dostęp i wdrożenie
PobieranieAPIHostowane
LokalnieChmura
Wagi: Open weights
Kluczowe parametry
🧩 Parametry: 7B (≈8B total: ViT 0.68B + LLM 7.07B + projection 0.55B)
✓ Fine-tuning
📥 Wejście: tekst, obraz, wideo
Robotyka
Embodied task planningScene understandingSpatial reasoningObject affordance understandingMotion planningSpatial prediction
Platformy

Specyfikacja techniczna

Parametry
7B (≈8B total: ViT 0.68B + LLM 7.07B + projection 0.55B)
parametrów
Licencja
NVIDIA Open Model License (commercial use)
Wymagania sprzętowe
Inferencja przez vLLM na GPU NVIDIA Hopper / Blackwell (testowane: H100, A100, GB200), precyzja BF16. Model 7B mieści się na pojedynczym GPU klasy serwerowej (np. H100 80GB). System operacyjny: Linux.
Funkcje:Fine-tuning
Modalności
⬇ Wejście (Input)
textimagevideo
⬆ Wyjście (Output)
text

Możliwości i zastosowania

Natywne możliwości modelu
Rozumowanie
Zdolność modelu do logicznego wnioskowania, analizowania zależności i wyprowadzania odpowiedzi na podstawie przesłanek.
Kategoria: reasoning
Rozumowanie wieloetapowe
Zdolność modelu do rozwiązywania problemów wymagających kilku kolejnych kroków rozumowania.
Kategoria: reasoning
Rozumienie wideo
Zdolność modelu do analizy i interpretacji treści wideo — rozpoznawania akcji, ruchu, zdarzeń oraz relacji między obiektami w czasie.
Kategoria: video
Enkoder wizyjny
Zdolność modelu do kodowania obrazów i klatek wideo w gęste reprezentacje (embeddingi), wykorzystywane do dalszych zadań lub jako backbone dla modeli wizyjno-językowych.
Kategoria: vision
Planowanie
Zdolność modelu do wyznaczania sekwencji działań prowadzących do celu — przewidywania skutków akcji i wyboru optymalnej ścieżki w danym środowisku.
Kategoria: planning
Robotyka
Embodied task planningScene understandingSpatial reasoningObject affordance understandingMotion planningSpatial prediction

Wyniki benchmarków

7 benchmarków
RoboVQA
accuracy · embodied reasoning benchmark
87.3%
📄 Cosmos-Reason1 model card / paper (arXiv:2503.15558)
AV (Autonomous Vehicle)
accuracy · embodied reasoning benchmark
70.8%
📄 Cosmos-Reason1 model card / paper (arXiv:2503.15558)
BridgeDataV2
accuracy · embodied reasoning benchmark
63.7%
📄 Cosmos-Reason1 model card / paper (arXiv:2503.15558)
AgiBot
accuracy · embodied reasoning benchmark
48.9%
📄 Cosmos-Reason1 model card / paper (arXiv:2503.15558)
HoloAssist
accuracy · embodied reasoning benchmark
62.7%
📄 Cosmos-Reason1 model card / paper (arXiv:2503.15558)
RoboFail
accuracy · held-out generalization benchmark
57.2%
📄 Cosmos-Reason1 model card / paper (arXiv:2503.15558)
Embodied Reasoning (Average)
accuracy · average across embodied reasoning benchmarks
65.1%
📄 Cosmos-Reason1 model card / paper (arXiv:2503.15558)

Architektura techniczna

Rdzeń architektury (Core Architecture)
Forma modelu (Model Form)
Techniki trenowania (Training Techniques)

Wdrożenie i bezpieczeństwo

☁ Dostępny na platformach