Cosmos Predict

Rodzina: Cosmos

Otwarta linia World Foundation Models od NVIDIA do generowania przyszłych stanów świata z tekstu, obrazu lub wideo. Główny model generatywny w platformie Cosmos do treningu robotów i pojazdów autonomicznych.

📦 Zarchiwizowany✓ Publiczny dostęp⚖ Open weightsModel świataModel generowania wideo📁 Cosmos

Parametry

4B – 14B (Cosmos Predict 1, wiele wariantów)

parametrów

Data premiery

6 stycznia 2025

🏢NVIDIAProducent

Dostęp:DownloadAPIHostedWdrożenie:💻 Lokalnie☁ Cloud

Przegląd

Cosmos Predict to seria otwartych World Foundation Models (WFM) opracowanych przez NVIDIA jako część platformy Cosmos do tzw. fizycznej AI (Physical AI). Modele generują przyszłe stany świata z opisu tekstowego, obrazu wejściowego lub klipu wideo, służąc m.in. jako źródło syntetycznych danych treningowych dla robotów humanoidalnych, pojazdów autonomicznych i systemów wizyjnych.

Warianty

Cosmos Predict 1 (styczeń 2025) to oryginalna generacja udostępniona w ramach platformy Cosmos. Modele dostępne są w dwóch architekturach — diffusion-based oraz autoregressive — w wariantach 4B, 5B, 7B, 12B, 13B i 14B parametrów. Tryby: Text2World (7B, 14B), Video2World (5B, 7B, 13B, 14B), WorldInterpolator (7B), warianty multiview do scenariuszy autonomicznych pojazdów (AV).

Cosmos Predict 2 (czerwiec 2025) i Cosmos Predict 2.5 (sierpień 2025) wprowadziły kolejne ulepszenia jakości i sterowalności. W październiku 2025 NVIDIA opublikowała Cosmos Reason 2 oraz Cosmos Transfer 2.5 jako pozostałe filary platformy. Wszystkie rodziny zostały finalnie zastąpione przez Cosmos 3 (omni-model, COMPUTEX 2026), który scala perception, reasoning oraz generację w jednej architekturze Mixture-of-Transformers.

Architektura

Diffusion-based WFM korzystają z tokenizera wideo (Cosmos Tokenizer1) i procesu odszumiania w przestrzeni latentnej. Wariant autoregresywny generuje przyszłe klatki sekwencyjnie, klatka po klatce, jako rozszerzenie wzorca dużych modeli językowych na wideo. Cosmos Predict obsługuje sterowanie sygnałem z kamery, tekstu, obrazu początkowego oraz akcji.

Zastosowania

Generacja syntetycznych danych treningowych do post-trainingu modeli robotycznych (m.in. NVIDIA Isaac, GR00T) i autonomicznych pojazdów. Symulacje pętli closed-loop, multi-view AV, World Interpolation (uzupełnianie brakujących klatek między dwiema obserwacjami). Klienci wymienieni przez NVIDIA: 1X Technologies, Agility Robotics, Figure AI, Neura Robotics, Toyota Research Institute, General Motors, Uber, Li Auto i in.

Dostępność

Wagi modeli Cosmos Predict 1, 2 i 2.5 są publicznie dostępne na Hugging Face w kolekcjach NVIDIA. Kod treningowy i post-trainingowy jest dostępny na GitHubie (NVIDIA/Cosmos). Modele można też uruchamiać przez NVIDIA NIM oraz w katalogu build.nvidia.com. Pierwsze wersje były na NVIDIA Open Model License; Cosmos 3 (następca) jest udostępniona na licencji OpenMDW 1.1 od Linux Foundation.

Klasyfikacja

Model świataModel generowania wideo

Rodzina: Cosmos

Dostęp i wdrożenie

PobieranieAPIHostowane

LokalnieChmura

Wagi: Open weights

Kluczowe parametry

🧩 Parametry: 4B – 14B (Cosmos Predict 1, wiele wariantów)

✓ Fine-tuning

📥 Wejście: tekst, obraz, wideo, dane stanu robota

Robotyka

Environment modelingSpatial predictionScene understandingSpatial reasoning

Platformy

NVIDIA Cosmos

Specyfikacja techniczna

Parametry

4B – 14B (Cosmos Predict 1, wiele wariantów)

parametrów

Licencja

NVIDIA Open Model License (Cosmos Predict 1 / 2 / 2.5)

Wymagania sprzętowe

Trening i inferencja na klastrach GPU NVIDIA (rekomendowane: H100 / B100 / GB200). Inferencja mniejszych wariantów (4B–7B) możliwa na pojedynczym GPU klasy serwerowej; warianty 12B–14B i scenariusze multiview wymagają wielu GPU. Implementacja referencyjna w PyTorch.

Funkcje:✓ Fine-tuning

Modalności

⬇ Wejście (Input)

textimagevideorobot_state_data

⬆ Wyjście (Output)

video

Możliwości i zastosowania

Natywne możliwości modelu

Generowanie wideo

Zdolność modelu do generowania klipów wideo z opisu tekstowego, obrazu lub innego wideo, z kontrolą długości, rozdzielczości i charakterystyk wizualnych.

Kategoria: video

Animacja obrazu (image-to-video)

Zdolność modelu do animowania statycznego obrazu wejściowego — przedłużania go w czasie do spójnego klipu wideo zgodnie z opisem ruchu lub akcji.

Kategoria: video

Rozumienie wideo

Zdolność modelu do analizy i interpretacji treści wideo — rozpoznawania akcji, ruchu, zdarzeń oraz relacji między obiektami w czasie.

Kategoria: video

Planowanie

Tworzenie i realizacja planów działania dla złożonych zadań.

Kategoria: planning

Robotyka

Environment modelingSpatial predictionScene understandingSpatial reasoning