Tekst-na-wideo model OpenAI oparty o diffusion transformer. Generuje klipy do 60 sekund w 1080p z opisu tekstowego, obrazu lub innego wideo.
Data premiery
15 lutego 2024
Dostęp:HostedWdrożenie:☁ Cloud
Przegląd
Dostęp i wdrożenie
Hostowane
Chmura
Wagi: Zamknięte
Kluczowe parametry
📥 Wejście: tekst, obraz, wideo
Specyfikacja techniczna
Max output tokens
0
tokenów na odpowiedź
Modalności
⬇ Wejście (Input)
textimagevideo
⬆ Wyjście (Output)
video
Możliwości i zastosowania
Natywne możliwości modelu
Generowanie wideo
Zdolność modelu do generowania klipów wideo z opisu tekstowego, obrazu lub innego wideo, z kontrolą długości, rozdzielczości i charakterystyk wizualnych.
Kategoria: video
Animacja obrazu (image-to-video)
Zdolność modelu do animowania statycznego obrazu wejściowego — przedłużania go w czasie do spójnego klipu wideo zgodnie z opisem ruchu lub akcji.
Kategoria: video
Rozumienie wideo
Zdolność modelu do analizy i interpretacji treści wideo — rozpoznawania akcji, ruchu, zdarzeń oraz relacji między obiektami w czasie.
Kategoria: video
Architektura techniczna
Rdzeń architektury (Core Architecture)
Forma modelu (Model Form)
