Sora

1 · Rodzina: Sora

Tekst-na-wideo model OpenAI oparty o diffusion transformer. Generuje klipy do 60 sekund w 1080p z opisu tekstowego, obrazu lub innego wideo.

✓ Aktywny✓ Publiczny dostępModel generowania wideo📁 Sora

Data premiery

15 lutego 2024

🏢OpenAIProducent

Dostęp:HostedWdrożenie:☁ Cloud

Przegląd

Sora to model generatywny tekst-na-wideo opracowany przez OpenAI, ogłoszony 15 lutego 2024 roku w pracy "Video generation models as world simulators". Model został publicznie udostępniony 9 grudnia 2024 jako wariant Sora Turbo, dostępny dla subskrybentów ChatGPT Plus i Pro przez serwis sora.com.

Architektura

Sora jest diffusion transformerem (DiT). Wideo i obrazy są reprezentowane jako kolekcje "patchy" w przestrzeni czasoprzestrzennej (spacetime patches), analogicznie do tokenów w dużych modelach językowych. Model jest trenowany w przestrzeni latentnej (latent diffusion) i generuje wideo przez iteracyjne odszumianie. Architektura skaluje się — większy compute przekłada się na wyższą jakość, dłuższe i bardziej spójne ujęcia.

Możliwości

Sora generuje klipy o długości do 60 sekund i rozdzielczości do 1080p w wielu formatach kadrowania (m.in. 1:1, 16:9, 9:16). Obsługuje trzy podstawowe scenariusze: text-to-video (wideo z opisu), image-to-video (animacja obrazu wejściowego) oraz video-to-video (rozszerzanie, łączenie i remix istniejących klipów). Model demonstruje zaawansowane rozumienie ruchu kamery, wielu postaci, fizyki i języka wizualnego.

Dostępność

Sora jest dostępna jako produkt hostowany na sora.com oraz w aplikacji ChatGPT dla użytkowników planów Plus i Pro (z dziennymi limitami liczby generacji oraz ograniczeniami długości / rozdzielczości zależnymi od planu). Wagi modelu nie są publicznie udostępniane. Generacje są oznaczane metadanymi C2PA oraz znakami wodnymi w celu wskazania pochodzenia AI.

Następca

30 września 2025 roku OpenAI ogłosiło Sora 2 — kolejną generację modelu z poprawioną fizyką, sterowalnością i synchroniczną generacją dźwięku. Sora 2 stanowi osobny model, niniejszy wpis dotyczy linii Sora w wariancie pierwszej generacji (Sora 1 / Sora Turbo).

Klasyfikacja

Model generowania wideo

Rodzina: Sora

Dostęp i wdrożenie

Hostowane

Chmura

Wagi: Zamknięte

Kluczowe parametry

📥 Wejście: tekst, obraz, wideo

Specyfikacja techniczna

Max output tokens

tokenów na odpowiedź

Modalności

⬇ Wejście (Input)

textimagevideo

⬆ Wyjście (Output)

video

Możliwości i zastosowania

Natywne możliwości modelu

Generowanie wideo

Zdolność modelu do generowania klipów wideo z opisu tekstowego, obrazu lub innego wideo, z kontrolą długości, rozdzielczości i charakterystyk wizualnych.

Kategoria: video

Animacja obrazu (image-to-video)

Zdolność modelu do animowania statycznego obrazu wejściowego — przedłużania go w czasie do spójnego klipu wideo zgodnie z opisem ruchu lub akcji.

Kategoria: video

Rozumienie wideo

Zdolność modelu do analizy i interpretacji treści wideo — rozpoznawania akcji, ruchu, zdarzeń oraz relacji między obiektami w czasie.

Kategoria: video

Architektura techniczna

Rdzeń architektury (Core Architecture)

DMDiffusion Model LDLDM TRTransformer

Forma modelu (Model Form)

WMWorld Models

Źródła i powiązane strony

4 źródła

WebSora — OpenAIopenai.com RaportVideo generation models as world simulators (OpenAI, Feb 15, 2024)openai.com BlogSora is here — Sora Turbo public release (OpenAI, Dec 9, 2024)openai.com WebSora app (sora.com)sora.com

Przeglądaj powiązane tematy

📁 Sora 🧠 Diffusion Model 🧠 LDM 🧠 Transformer Wszystkie modele video generation model