Robocikowo>ROBOCIKOWO
Cosmos Transfer

Cosmos Transfer

Rodzina: Cosmos
Otwarty World Foundation Model NVIDIA do sterowanej translacji wideo: zamienia symulacje (np. z Omniverse) na fotorealistyczne dane syntetyczne dla robotyki i pojazdów autonomicznych.
📦 Zarchiwizowany✓ Publiczny dostęp⚖ Open weightsModel generowania wideoModel świata📁 Cosmos
Parametry
7B (Cosmos Transfer 1, wszystkie warianty)
parametrów
Data premiery
19 marca 2025
Dostęp:DownloadAPIHostedWdrożenie:💻 Lokalnie☁ Cloud

Przegląd

Cosmos Transfer to seria otwartych World Foundation Models (WFM) opracowanych przez NVIDIA jako część platformy Cosmos do tzw. fizycznej AI (Physical AI). Modele wykonują tzw. controllable video-to-video translation: na wejście dostają strukturalny sygnał (segmentacja, mapa głębi, krawędzie, szum, kontur ruchu, wideo z symulatora) wraz z opisem tekstowym, a na wyjściu generują fotorealistyczne wideo zachowujące geometrię i ruch sceny ze źródła.

Warianty

Cosmos Transfer 1 (marzec – kwiecień 2025) udostępnione zostało jako Cosmos-Transfer1-7B (model główny), Cosmos-Transfer1-7B-Sample-AV (wariant dla pojazdów autonomicznych), Cosmos-Transfer1-7B-Sample-AV-Single2MultiView (przejście z jednej kamery na wiele widoków AV) oraz Cosmos-Transfer1-7B-4KUpscaler (upscaling do 4K). Wszystkie warianty mają ~7 mld parametrów. Cosmos Transfer 2.5 (sierpień 2025) wprowadziło ulepszenia jakości i kontrolowalności kontroli wielomodalnej.

Architektura

Cosmos Transfer to model dyfuzyjny z architekturą typu transformer, działający w przestrzeni latentnej z użyciem tokenizera wideo Cosmos Tokenizer1. Model jest sterowany wieloma kanałami informacji (multimodal control) — m.in. mapy segmentacji, mapy głębi, sygnał z kamery oraz prompt tekstowy — co pozwala precyzyjnie kontrolować zarówno strukturę, jak i wygląd generowanego wideo. Sygnał z symulatora (np. NVIDIA Omniverse) podaje geometrię i ruch, a model dokleja fotorealistyczne tekstury, oświetlenie i atmosferę.

Zastosowania

Główne zastosowanie to skalowanie syntetycznych danych treningowych: pojedyncza scena symulowana w Omniverse jest mnożona przez Cosmos Transfer w wiele realistycznych wariantów (zmiana pogody, oświetlenia, geolokalizacji, układu czujników). Wykorzystywane przez NVIDIA m.in. w pipeline'ach trenowania pojazdów autonomicznych (Foretellix, Parallel Domain, General Motors, Toyota Research Institute, Uber, Li Auto) oraz robotyki (1X Technologies, Agility Robotics, Figure AI, Neura Robotics).

Dostępność

Wagi modeli Cosmos Transfer 1 i 2.5 są publicznie dostępne na Hugging Face w kolekcjach NVIDIA. Kod treningowy i post-trainingowy w repozytorium NVIDIA/Cosmos na GitHubie. Modele można uruchamiać przez NVIDIA NIM oraz w katalogu build.nvidia.com. Pierwsze wersje na NVIDIA Open Model License; rodzina Cosmos została następnie zastąpiona przez Cosmos 3 (omni-model, COMPUTEX 2026), w którym perception, reasoning i generacja zostały scalone w jednej architekturze Mixture-of-Transformers.

Klasyfikacja
Model generowania wideoModel świata
Rodzina: Cosmos
Dostęp i wdrożenie
PobieranieAPIHostowane
LokalnieChmura
Wagi: Open weights
Kluczowe parametry
🧩 Parametry: 7B (Cosmos Transfer 1, wszystkie warianty)
✓ Fine-tuning
📥 Wejście: wideo, obraz, tekst, głębia
Robotyka
Environment modelingScene understandingSpatial reasoning
Platformy

Specyfikacja techniczna

Parametry
7B (Cosmos Transfer 1, wszystkie warianty)
parametrów
Licencja
NVIDIA Open Model License (Cosmos Transfer 1 / 2.5)
Wymagania sprzętowe
Trening na klastrach GPU NVIDIA klasy H100 / B100 / GB200. Inferencja modelu 7B możliwa na pojedynczym GPU klasy serwerowej (H100 80GB) lub na zasobach NVIDIA NIM. Implementacja referencyjna w PyTorch.
Funkcje:Fine-tuning
Modalności
⬇ Wejście (Input)
videoimagetextdepthstructured_data
⬆ Wyjście (Output)
video

Możliwości i zastosowania

Natywne możliwości modelu
Generowanie wideo
Zdolność modelu do generowania klipów wideo z opisu tekstowego, obrazu lub innego wideo, z kontrolą długości, rozdzielczości i charakterystyk wizualnych.
Kategoria: video
Animacja obrazu (image-to-video)
Zdolność modelu do animowania statycznego obrazu wejściowego — przedłużania go w czasie do spójnego klipu wideo zgodnie z opisem ruchu lub akcji.
Kategoria: video
Rozumienie wideo
Zdolność modelu do analizy i interpretacji treści wideo — rozpoznawania akcji, ruchu, zdarzeń oraz relacji między obiektami w czasie.
Kategoria: video
Robotyka
Environment modelingScene understandingSpatial reasoning

Architektura techniczna

Rdzeń architektury (Core Architecture)
Forma modelu (Model Form)
Techniki trenowania (Training Techniques)

Wdrożenie i bezpieczeństwo