Robocikowo>ROBOCIKOWO
Sora

Sora

1 · Rodzina: Sora
Tekst-na-wideo model OpenAI oparty o diffusion transformer. Generuje klipy do 60 sekund w 1080p z opisu tekstowego, obrazu lub innego wideo.
✓ Aktywny✓ Publiczny dostępModel generowania wideo📁 Sora
Data premiery
15 lutego 2024
Dostęp:HostedWdrożenie:☁ Cloud

Przegląd

Sora to model generatywny tekst-na-wideo opracowany przez OpenAI, ogłoszony 15 lutego 2024 roku w pracy "Video generation models as world simulators". Model został publicznie udostępniony 9 grudnia 2024 jako wariant Sora Turbo, dostępny dla subskrybentów ChatGPT Plus i Pro przez serwis sora.com.

Architektura

Sora jest diffusion transformerem (DiT). Wideo i obrazy są reprezentowane jako kolekcje "patchy" w przestrzeni czasoprzestrzennej (spacetime patches), analogicznie do tokenów w dużych modelach językowych. Model jest trenowany w przestrzeni latentnej (latent diffusion) i generuje wideo przez iteracyjne odszumianie. Architektura skaluje się — większy compute przekłada się na wyższą jakość, dłuższe i bardziej spójne ujęcia.

Możliwości

Sora generuje klipy o długości do 60 sekund i rozdzielczości do 1080p w wielu formatach kadrowania (m.in. 1:1, 16:9, 9:16). Obsługuje trzy podstawowe scenariusze: text-to-video (wideo z opisu), image-to-video (animacja obrazu wejściowego) oraz video-to-video (rozszerzanie, łączenie i remix istniejących klipów). Model demonstruje zaawansowane rozumienie ruchu kamery, wielu postaci, fizyki i języka wizualnego.

Dostępność

Sora jest dostępna jako produkt hostowany na sora.com oraz w aplikacji ChatGPT dla użytkowników planów Plus i Pro (z dziennymi limitami liczby generacji oraz ograniczeniami długości / rozdzielczości zależnymi od planu). Wagi modelu nie są publicznie udostępniane. Generacje są oznaczane metadanymi C2PA oraz znakami wodnymi w celu wskazania pochodzenia AI.

Następca

30 września 2025 roku OpenAI ogłosiło Sora 2 — kolejną generację modelu z poprawioną fizyką, sterowalnością i synchroniczną generacją dźwięku. Sora 2 stanowi osobny model, niniejszy wpis dotyczy linii Sora w wariancie pierwszej generacji (Sora 1 / Sora Turbo).

Klasyfikacja
Model generowania wideo
Rodzina: Sora
Dostęp i wdrożenie
Hostowane
Chmura
Wagi: Zamknięte
Kluczowe parametry
📥 Wejście: tekst, obraz, wideo

Specyfikacja techniczna

Max output tokens
0
tokenów na odpowiedź
Modalności
⬇ Wejście (Input)
textimagevideo
⬆ Wyjście (Output)
video

Możliwości i zastosowania

Natywne możliwości modelu
Generowanie wideo
Zdolność modelu do generowania klipów wideo z opisu tekstowego, obrazu lub innego wideo, z kontrolą długości, rozdzielczości i charakterystyk wizualnych.
Kategoria: video
Animacja obrazu (image-to-video)
Zdolność modelu do animowania statycznego obrazu wejściowego — przedłużania go w czasie do spójnego klipu wideo zgodnie z opisem ruchu lub akcji.
Kategoria: video
Rozumienie wideo
Zdolność modelu do analizy i interpretacji treści wideo — rozpoznawania akcji, ruchu, zdarzeń oraz relacji między obiektami w czasie.
Kategoria: video

Architektura techniczna

Rdzeń architektury (Core Architecture)
Forma modelu (Model Form)