Cosmos Transfer

Rodzina: Cosmos

Otwarty World Foundation Model NVIDIA do sterowanej translacji wideo: zamienia symulacje (np. z Omniverse) na fotorealistyczne dane syntetyczne dla robotyki i pojazdów autonomicznych.

📦 Zarchiwizowany✓ Publiczny dostęp⚖ Open weightsModel generowania wideoModel świata📁 Cosmos

Parametry

7B (Cosmos Transfer 1, wszystkie warianty)

parametrów

Data premiery

19 marca 2025

🏢NVIDIAProducent

Dostęp:DownloadAPIHostedWdrożenie:💻 Lokalnie☁ Cloud

Przegląd

Cosmos Transfer to seria otwartych World Foundation Models (WFM) opracowanych przez NVIDIA jako część platformy Cosmos do tzw. fizycznej AI (Physical AI). Modele wykonują tzw. controllable video-to-video translation: na wejście dostają strukturalny sygnał (segmentacja, mapa głębi, krawędzie, szum, kontur ruchu, wideo z symulatora) wraz z opisem tekstowym, a na wyjściu generują fotorealistyczne wideo zachowujące geometrię i ruch sceny ze źródła.

Warianty

Cosmos Transfer 1 (marzec – kwiecień 2025) udostępnione zostało jako Cosmos-Transfer1-7B (model główny), Cosmos-Transfer1-7B-Sample-AV (wariant dla pojazdów autonomicznych), Cosmos-Transfer1-7B-Sample-AV-Single2MultiView (przejście z jednej kamery na wiele widoków AV) oraz Cosmos-Transfer1-7B-4KUpscaler (upscaling do 4K). Wszystkie warianty mają ~7 mld parametrów. Cosmos Transfer 2.5 (sierpień 2025) wprowadziło ulepszenia jakości i kontrolowalności kontroli wielomodalnej.

Architektura

Cosmos Transfer to model dyfuzyjny z architekturą typu transformer, działający w przestrzeni latentnej z użyciem tokenizera wideo Cosmos Tokenizer1. Model jest sterowany wieloma kanałami informacji (multimodal control) — m.in. mapy segmentacji, mapy głębi, sygnał z kamery oraz prompt tekstowy — co pozwala precyzyjnie kontrolować zarówno strukturę, jak i wygląd generowanego wideo. Sygnał z symulatora (np. NVIDIA Omniverse) podaje geometrię i ruch, a model dokleja fotorealistyczne tekstury, oświetlenie i atmosferę.

Zastosowania

Główne zastosowanie to skalowanie syntetycznych danych treningowych: pojedyncza scena symulowana w Omniverse jest mnożona przez Cosmos Transfer w wiele realistycznych wariantów (zmiana pogody, oświetlenia, geolokalizacji, układu czujników). Wykorzystywane przez NVIDIA m.in. w pipeline'ach trenowania pojazdów autonomicznych (Foretellix, Parallel Domain, General Motors, Toyota Research Institute, Uber, Li Auto) oraz robotyki (1X Technologies, Agility Robotics, Figure AI, Neura Robotics).

Dostępność

Wagi modeli Cosmos Transfer 1 i 2.5 są publicznie dostępne na Hugging Face w kolekcjach NVIDIA. Kod treningowy i post-trainingowy w repozytorium NVIDIA/Cosmos na GitHubie. Modele można uruchamiać przez NVIDIA NIM oraz w katalogu build.nvidia.com. Pierwsze wersje na NVIDIA Open Model License; rodzina Cosmos została następnie zastąpiona przez Cosmos 3 (omni-model, COMPUTEX 2026), w którym perception, reasoning i generacja zostały scalone w jednej architekturze Mixture-of-Transformers.

Klasyfikacja

Model generowania wideoModel świata

Rodzina: Cosmos

Zastosowania

Symulacja i dane syntetyczne Trening polityk robotów

Dostęp i wdrożenie

PobieranieAPIHostowane

LokalnieChmura

Wagi: Open weights

Kluczowe parametry

🧩 Parametry: 7B (Cosmos Transfer 1, wszystkie warianty)

✓ Fine-tuning

📥 Wejście: wideo, obraz, tekst, głębia…

Robotyka

Environment modelingScene understandingSpatial reasoning

Platformy

NVIDIA Cosmos

Specyfikacja techniczna

Parametry

7B (Cosmos Transfer 1, wszystkie warianty)

parametrów

Licencja

NVIDIA Open Model License (Cosmos Transfer 1 / 2.5)

Wymagania sprzętowe

Trening na klastrach GPU NVIDIA klasy H100 / B100 / GB200. Inferencja modelu 7B możliwa na pojedynczym GPU klasy serwerowej (H100 80GB) lub na zasobach NVIDIA NIM. Implementacja referencyjna w PyTorch.

Funkcje:✓ Fine-tuning

Modalności

⬇ Wejście (Input)

videoimagetextdepthstructured_data

⬆ Wyjście (Output)

video

Możliwości i zastosowania

Natywne możliwości modelu

Generowanie wideo

Zdolność modelu do generowania klipów wideo z opisu tekstowego, obrazu lub innego wideo, z kontrolą długości, rozdzielczości i charakterystyk wizualnych.

Kategoria: video

Animacja obrazu (image-to-video)

Zdolność modelu do animowania statycznego obrazu wejściowego — przedłużania go w czasie do spójnego klipu wideo zgodnie z opisem ruchu lub akcji.

Kategoria: video

Rozumienie wideo

Zdolność modelu do analizy i interpretacji treści wideo — rozpoznawania akcji, ruchu, zdarzeń oraz relacji między obiektami w czasie.

Kategoria: video

Robotyka

Environment modelingScene understandingSpatial reasoning

Dziedziny zastosowań

Symulacja i dane syntetyczne Trening polityk robotów