Robocikowo>ROBOCIKOWO
Cosmos Predict

Cosmos Predict

Rodzina: Cosmos
Otwarta linia World Foundation Models od NVIDIA do generowania przyszłych stanów świata z tekstu, obrazu lub wideo. Główny model generatywny w platformie Cosmos do treningu robotów i pojazdów autonomicznych.
📦 Zarchiwizowany✓ Publiczny dostęp⚖ Open weightsModel świataModel generowania wideo📁 Cosmos
Parametry
4B – 14B (Cosmos Predict 1, wiele wariantów)
parametrów
Data premiery
6 stycznia 2025
Dostęp:DownloadAPIHostedWdrożenie:💻 Lokalnie☁ Cloud

Przegląd

Cosmos Predict to seria otwartych World Foundation Models (WFM) opracowanych przez NVIDIA jako część platformy Cosmos do tzw. fizycznej AI (Physical AI). Modele generują przyszłe stany świata z opisu tekstowego, obrazu wejściowego lub klipu wideo, służąc m.in. jako źródło syntetycznych danych treningowych dla robotów humanoidalnych, pojazdów autonomicznych i systemów wizyjnych.

Warianty

Cosmos Predict 1 (styczeń 2025) to oryginalna generacja udostępniona w ramach platformy Cosmos. Modele dostępne są w dwóch architekturach — diffusion-based oraz autoregressive — w wariantach 4B, 5B, 7B, 12B, 13B i 14B parametrów. Tryby: Text2World (7B, 14B), Video2World (5B, 7B, 13B, 14B), WorldInterpolator (7B), warianty multiview do scenariuszy autonomicznych pojazdów (AV).

Cosmos Predict 2 (czerwiec 2025) i Cosmos Predict 2.5 (sierpień 2025) wprowadziły kolejne ulepszenia jakości i sterowalności. W październiku 2025 NVIDIA opublikowała Cosmos Reason 2 oraz Cosmos Transfer 2.5 jako pozostałe filary platformy. Wszystkie rodziny zostały finalnie zastąpione przez Cosmos 3 (omni-model, COMPUTEX 2026), który scala perception, reasoning oraz generację w jednej architekturze Mixture-of-Transformers.

Architektura

Diffusion-based WFM korzystają z tokenizera wideo (Cosmos Tokenizer1) i procesu odszumiania w przestrzeni latentnej. Wariant autoregresywny generuje przyszłe klatki sekwencyjnie, klatka po klatce, jako rozszerzenie wzorca dużych modeli językowych na wideo. Cosmos Predict obsługuje sterowanie sygnałem z kamery, tekstu, obrazu początkowego oraz akcji.

Zastosowania

Generacja syntetycznych danych treningowych do post-trainingu modeli robotycznych (m.in. NVIDIA Isaac, GR00T) i autonomicznych pojazdów. Symulacje pętli closed-loop, multi-view AV, World Interpolation (uzupełnianie brakujących klatek między dwiema obserwacjami). Klienci wymienieni przez NVIDIA: 1X Technologies, Agility Robotics, Figure AI, Neura Robotics, Toyota Research Institute, General Motors, Uber, Li Auto i in.

Dostępność

Wagi modeli Cosmos Predict 1, 2 i 2.5 są publicznie dostępne na Hugging Face w kolekcjach NVIDIA. Kod treningowy i post-trainingowy jest dostępny na GitHubie (NVIDIA/Cosmos). Modele można też uruchamiać przez NVIDIA NIM oraz w katalogu build.nvidia.com. Pierwsze wersje były na NVIDIA Open Model License; Cosmos 3 (następca) jest udostępniona na licencji OpenMDW 1.1 od Linux Foundation.

Klasyfikacja
Model świataModel generowania wideo
Rodzina: Cosmos
Dostęp i wdrożenie
PobieranieAPIHostowane
LokalnieChmura
Wagi: Open weights
Kluczowe parametry
🧩 Parametry: 4B – 14B (Cosmos Predict 1, wiele wariantów)
✓ Fine-tuning
📥 Wejście: tekst, obraz, wideo, dane stanu robota
Robotyka
Environment modelingSpatial predictionScene understandingSpatial reasoning
Platformy

Specyfikacja techniczna

Parametry
4B – 14B (Cosmos Predict 1, wiele wariantów)
parametrów
Licencja
NVIDIA Open Model License (Cosmos Predict 1 / 2 / 2.5)
Wymagania sprzętowe
Trening i inferencja na klastrach GPU NVIDIA (rekomendowane: H100 / B100 / GB200). Inferencja mniejszych wariantów (4B–7B) możliwa na pojedynczym GPU klasy serwerowej; warianty 12B–14B i scenariusze multiview wymagają wielu GPU. Implementacja referencyjna w PyTorch.
Funkcje:Fine-tuning
Modalności
⬇ Wejście (Input)
textimagevideorobot_state_data
⬆ Wyjście (Output)
video

Możliwości i zastosowania

Natywne możliwości modelu
Generowanie wideo
Zdolność modelu do generowania klipów wideo z opisu tekstowego, obrazu lub innego wideo, z kontrolą długości, rozdzielczości i charakterystyk wizualnych.
Kategoria: video
Animacja obrazu (image-to-video)
Zdolność modelu do animowania statycznego obrazu wejściowego — przedłużania go w czasie do spójnego klipu wideo zgodnie z opisem ruchu lub akcji.
Kategoria: video
Rozumienie wideo
Zdolność modelu do analizy i interpretacji treści wideo — rozpoznawania akcji, ruchu, zdarzeń oraz relacji między obiektami w czasie.
Kategoria: video
Planowanie
Zdolność modelu do wyznaczania sekwencji działań prowadzących do celu — przewidywania skutków akcji i wyboru optymalnej ścieżki w danym środowisku.
Kategoria: planning
Robotyka
Environment modelingSpatial predictionScene understandingSpatial reasoning

Architektura techniczna

Rdzeń architektury (Core Architecture)
Forma modelu (Model Form)

Wdrożenie i bezpieczeństwo

☁ Dostępny na platformach