Cosmos Reason

1 · Rodzina: Cosmos

Otwarty, 7-miliardowy reasoning vision-language model NVIDIA dla Physical AI i robotyki. Rozumie przestrzeń, czas i fizykę, działa jako model planujący dla agentów embodied.

📦 Zarchiwizowany✓ Publiczny dostęp⚖ Open weightsModel rozumowaniaModel multimodalny📁 Cosmos

Parametry

7B (≈8B total: ViT 0.68B + LLM 7.07B + projection 0.55B)

parametrów

Data premiery

17 maja 2025

🏢NVIDIAProducent

Dostęp:DownloadAPIHostedWdrożenie:💻 Lokalnie☁ Cloud

Przegląd

Cosmos Reason to otwarty, konfigurowalny reasoning vision-language model (VLM) opracowany przez NVIDIA w ramach platformy Cosmos do Physical AI i robotyki. Umożliwia robotom i agentom wizyjnym rozumowanie przy użyciu wiedzy uprzedniej, rozumienia fizyki i zdrowego rozsądku, aby rozumieć i działać w świecie rzeczywistym. Model rozumie przestrzeń, czas i podstawową fizykę oraz może pełnić rolę modelu planującego, wnioskując o kolejnych krokach agenta embodied.

Architektura

Multimodalny LLM złożony z Vision Transformera (ViT) jako enkodera wizji oraz gęstego (dense) Transformera jako modelu językowego. Architektura sieci: Qwen2.5-VL-7B-Instruct — Cosmos Reason1-7B jest post-trenowany na bazie Qwen2.5-VL-7B-Instruct. Liczba parametrów: ViT 675,76 mln + LLM 7,07 mld + warstwa projekcji 545 mln (łącznie ok. 8 mld). Wideo/obraz są zamieniane na tokeny przez enkoder wizji i projektor, łączone z promptem tekstowym i podawane do rdzenia, który stosuje chain-of-thought, by odpowiadać krok po kroku.

Trening

Model jest post-trenowany danymi fizycznego zdrowego rozsądku i embodied reasoning z użyciem supervised fine-tuningu (SFT) oraz reinforcement learningu (RL). Wykorzystuje zdolności rozumowania łańcuchowego (chain-of-thought) do rozumienia dynamiki świata bez anotacji człowieka. Dane treningowe obejmują m.in. RoboVQA, BridgeDataV2, AgiBot, HoloAssist oraz dane jazdy autonomicznej (AV) zbierane i anotowane przez NVIDIA.

Zastosowania

Kuracja i anotacja danych (automatyzacja wysokojakościowej anotacji masowych zbiorów), planowanie i rozumowanie robotów (mózg dla modeli vision-language-action — robot rozkłada złożone polecenia na zadania i wykonuje je), oraz agenci analizy wideo (ekstrakcja wglądów i analiza root-cause z dużych wolumenów wideo). Model jest gotowy do użytku komercyjnego.

Dostępność

Wagi Cosmos Reason1-7B dostępne publicznie na Hugging Face na licencji NVIDIA Open Model License (użytek komercyjny dozwolony). Kod post-trainingu w repozytorium nvidia-cosmos/cosmos-reason1. Runtime: vLLM. Testowany sprzęt: H100, A100, GB200 (NVIDIA Hopper / Blackwell), precyzja BF16. Kolejna generacja — Cosmos Reason 2 — została udostępniona w październiku 2025. Rodzina Cosmos została następnie scalona w omni-model Cosmos 3 (COMPUTEX 2026).

Klasyfikacja

Model rozumowaniaModel multimodalny

Rodzina: Cosmos

Zastosowania

Trening polityk robotów Analiza wideo (Video analytics)Kuracja i anotacja danych

Dostęp i wdrożenie

PobieranieAPIHostowane

LokalnieChmura

Wagi: Open weights

Kluczowe parametry

🧩 Parametry: 7B (≈8B total: ViT 0.68B + LLM 7.07B + projection 0.55B)

✓ Fine-tuning

📥 Wejście: tekst, obraz, wideo

Robotyka

Embodied task planningScene understandingSpatial reasoningObject affordance understandingMotion planningSpatial prediction

Platformy

NVIDIA Cosmos

Specyfikacja techniczna

Parametry

7B (≈8B total: ViT 0.68B + LLM 7.07B + projection 0.55B)

parametrów

Licencja

NVIDIA Open Model License (commercial use)

Wymagania sprzętowe

Inferencja przez vLLM na GPU NVIDIA Hopper / Blackwell (testowane: H100, A100, GB200), precyzja BF16. Model 7B mieści się na pojedynczym GPU klasy serwerowej (np. H100 80GB). System operacyjny: Linux.

Funkcje:✓ Fine-tuning

Modalności

⬇ Wejście (Input)

textimagevideo

⬆ Wyjście (Output)

text

Możliwości i zastosowania

Natywne możliwości modelu

Rozumowanie

Zdolność modelu do logicznego wnioskowania i rozwiązywania złożonych problemów.

Kategoria: reasoning

Rozumowanie wieloetapowe

Prowadzenie wieloetapowego toku rozumowania w długich, złożonych zadaniach.

Kategoria: reasoning

Rozumienie wideo

Zdolność modelu do analizy i interpretacji treści wideo — rozpoznawania akcji, ruchu, zdarzeń oraz relacji między obiektami w czasie.

Kategoria: video

Enkoder wizyjny

Zdolność modelu do kodowania obrazów i klatek wideo w gęste reprezentacje (embeddingi), wykorzystywane do dalszych zadań lub jako backbone dla modeli wizyjno-językowych.

Kategoria: vision

Planowanie

Tworzenie i realizacja planów działania dla złożonych zadań.

Kategoria: planning

Robotyka

Embodied task planningScene understandingSpatial reasoningObject affordance understandingMotion planningSpatial prediction

Dziedziny zastosowań

Trening polityk robotów Analiza wideo (Video analytics)Kuracja i anotacja danych

Wyniki benchmarków

7 benchmarków

RoboVQA

accuracy · embodied reasoning benchmark

87.3%