Otwarty World Foundation Model NVIDIA do sterowanej translacji wideo: zamienia symulacje (np. z Omniverse) na fotorealistyczne dane syntetyczne dla robotyki i pojazdów autonomicznych.
Parametry
7B (Cosmos Transfer 1, wszystkie warianty)
parametrów
Data premiery
19 marca 2025
Dostęp:DownloadAPIHostedWdrożenie:💻 Lokalnie☁ Cloud
Przegląd
Dostęp i wdrożenie
PobieranieAPIHostowane
LokalnieChmura
Wagi: Open weights
Kluczowe parametry
🧩 Parametry: 7B (Cosmos Transfer 1, wszystkie warianty)
✓ Fine-tuning
📥 Wejście: wideo, obraz, tekst, głębia…
Robotyka
Environment modelingScene understandingSpatial reasoning
Platformy
Specyfikacja techniczna
Parametry
7B (Cosmos Transfer 1, wszystkie warianty)
parametrów
Licencja
NVIDIA Open Model License (Cosmos Transfer 1 / 2.5)
Wymagania sprzętowe
Trening na klastrach GPU NVIDIA klasy H100 / B100 / GB200. Inferencja modelu 7B możliwa na pojedynczym GPU klasy serwerowej (H100 80GB) lub na zasobach NVIDIA NIM. Implementacja referencyjna w PyTorch.
Funkcje:✓ Fine-tuning
Modalności
⬇ Wejście (Input)
videoimagetextdepthstructured_data
⬆ Wyjście (Output)
video
Możliwości i zastosowania
Natywne możliwości modelu
Generowanie wideo
Zdolność modelu do generowania klipów wideo z opisu tekstowego, obrazu lub innego wideo, z kontrolą długości, rozdzielczości i charakterystyk wizualnych.
Kategoria: video
Animacja obrazu (image-to-video)
Zdolność modelu do animowania statycznego obrazu wejściowego — przedłużania go w czasie do spójnego klipu wideo zgodnie z opisem ruchu lub akcji.
Kategoria: video
Rozumienie wideo
Zdolność modelu do analizy i interpretacji treści wideo — rozpoznawania akcji, ruchu, zdarzeń oraz relacji między obiektami w czasie.
Kategoria: video
Robotyka
Environment modelingScene understandingSpatial reasoning
Dziedziny zastosowań
Architektura techniczna
Rdzeń architektury (Core Architecture)
Forma modelu (Model Form)
Techniki trenowania (Training Techniques)
Wdrożenie i bezpieczeństwo
💾 Powiązane oprogramowanie
☁ Dostępny na platformach
