Otwarta linia World Foundation Models od NVIDIA do generowania przyszłych stanów świata z tekstu, obrazu lub wideo. Główny model generatywny w platformie Cosmos do treningu robotów i pojazdów autonomicznych.
Parametry
4B – 14B (Cosmos Predict 1, wiele wariantów)
parametrów
Data premiery
6 stycznia 2025
Dostęp:DownloadAPIHostedWdrożenie:💻 Lokalnie☁ Cloud
Przegląd
Dostęp i wdrożenie
PobieranieAPIHostowane
LokalnieChmura
Wagi: Open weights
Kluczowe parametry
🧩 Parametry: 4B – 14B (Cosmos Predict 1, wiele wariantów)
✓ Fine-tuning
📥 Wejście: tekst, obraz, wideo, dane stanu robota
Robotyka
Environment modelingSpatial predictionScene understandingSpatial reasoning
Platformy
Specyfikacja techniczna
Parametry
4B – 14B (Cosmos Predict 1, wiele wariantów)
parametrów
Licencja
NVIDIA Open Model License (Cosmos Predict 1 / 2 / 2.5)
Wymagania sprzętowe
Trening i inferencja na klastrach GPU NVIDIA (rekomendowane: H100 / B100 / GB200). Inferencja mniejszych wariantów (4B–7B) możliwa na pojedynczym GPU klasy serwerowej; warianty 12B–14B i scenariusze multiview wymagają wielu GPU. Implementacja referencyjna w PyTorch.
Funkcje:✓ Fine-tuning
Modalności
⬇ Wejście (Input)
textimagevideorobot_state_data
⬆ Wyjście (Output)
video
Możliwości i zastosowania
Natywne możliwości modelu
Generowanie wideo
Zdolność modelu do generowania klipów wideo z opisu tekstowego, obrazu lub innego wideo, z kontrolą długości, rozdzielczości i charakterystyk wizualnych.
Kategoria: video
Animacja obrazu (image-to-video)
Zdolność modelu do animowania statycznego obrazu wejściowego — przedłużania go w czasie do spójnego klipu wideo zgodnie z opisem ruchu lub akcji.
Kategoria: video
Rozumienie wideo
Zdolność modelu do analizy i interpretacji treści wideo — rozpoznawania akcji, ruchu, zdarzeń oraz relacji między obiektami w czasie.
Kategoria: video
Planowanie
Zdolność modelu do wyznaczania sekwencji działań prowadzących do celu — przewidywania skutków akcji i wyboru optymalnej ścieżki w danym środowisku.
Kategoria: planning
Robotyka
Environment modelingSpatial predictionScene understandingSpatial reasoning
Architektura techniczna
Rdzeń architektury (Core Architecture)
Forma modelu (Model Form)
Wdrożenie i bezpieczeństwo
☁ Dostępny na platformach
