Genie 3

3 · Rodzina: Genie

Foundation world model od Google DeepMind generujący interaktywne światy 3D z promptu tekstowego, w czasie rzeczywistym 24 fps, 720p, ze spójnością do kilku minut.

⏳ Preview⏳ Ograniczony dostępModel świata📁 Genie

Data premiery

5 sierpnia 2025

🏢Google DeepMindProducent

Dostęp:HostedWdrożenie:☁ Cloud

Przegląd

Genie 3 to ogólnoprzeznaczeniowy foundation world model opracowany przez Google DeepMind, ogłoszony 5 sierpnia 2025 roku przez Jacka Parker-Holdera i Shlomiego Fruchtera. Z polecenia tekstowego model generuje dynamiczne, interaktywne światy 3D, po których można nawigować w czasie rzeczywistym z prędkością 24 klatek na sekundę w rozdzielczości 720p, zachowując spójność przez kilka minut.

Postęp względem Genie 2

Genie 3 jest pierwszym modelem rodziny Genie umożliwiającym interakcję w czasie rzeczywistym, jednocześnie poprawiając spójność i realizm względem Genie 2 (grudzień 2024). Spójność wizualna sięga około jednej minuty wstecz — model pamięta i poprawnie renderuje obszary wcześniej widziane po powrocie do nich. W przeciwieństwie do podejść takich jak NeRF czy Gaussian Splatting, Genie 3 nie korzysta z jawnej reprezentacji 3D — światy są generowane klatka po klatce na podstawie opisu i akcji użytkownika, co czyni je bardziej dynamicznymi i bogatymi.

Promptable world events

Oprócz wejścia nawigacyjnego, Genie 3 wprowadza tzw. promptable world events — formę tekstowej interakcji pozwalającą zmieniać świat w trakcie symulacji (zmiana pogody, dodanie nowych obiektów lub postaci). Mechanizm ten zwiększa zakres możliwych scenariuszy kontrfaktycznych ("co jeśli") wykorzystywanych do trenowania agentów uczących się z doświadczenia.

Embodied agent research

Genie 3 generuje światy do trenowania i ewaluacji embodied agents. DeepMind zademonstrował współpracę z najnowszą wersją agenta SIMA: w środowiskach generowanych przez Genie 3 SIMA realizuje wskazane cele, wysyłając do modelu akcje nawigacyjne, a Genie 3 — bez wiedzy o celu agenta — symuluje przyszłe klatki. Dłuższa spójność światów pozwala na realizację dłuższych sekwencji akcji i bardziej złożonych zadań.

Ograniczenia

Wskazane przez DeepMind ograniczenia: ograniczona przestrzeń akcji wykonywanych bezpośrednio przez agenta, niedoskonałe modelowanie interakcji wielu niezależnych agentów, brak idealnej geograficznej wierności rzeczywistych miejsc, problemy z renderowaniem czytelnego tekstu (chyba że został podany w opisie świata) oraz ograniczony czas ciągłej interakcji do kilku minut, nie wielu godzin.

Dostępność

Genie 3 został udostępniony jako limited research preview dla niewielkiej grupy akademików i twórców. Wagi nie są publicznie dostępne; brak publicznego API. DeepMind sygnalizuje plany rozszerzenia dostępu do kolejnych testerów.

Klasyfikacja

Model świata

Rodzina: Genie

Dostęp i wdrożenie

Hostowane

Chmura

Wagi: Zamknięte

Kluczowe parametry

📥 Wejście: tekst, dane strukturalne

Robotyka

Environment modelingSpatial predictionScene understandingSpatial reasoning

Specyfikacja techniczna

Modalności

⬇ Wejście (Input)

textstructured_data

⬆ Wyjście (Output)

video

Możliwości i zastosowania

Natywne możliwości modelu

Rozumienie wideo

Zdolność modelu do analizy i interpretacji treści wideo — rozpoznawania akcji, ruchu, zdarzeń oraz relacji między obiektami w czasie.

Kategoria: video

Planowanie

Tworzenie i realizacja planów działania dla złożonych zadań.

Kategoria: planning

Robotyka

Environment modelingSpatial predictionScene understandingSpatial reasoning

Architektura techniczna

Rdzeń architektury (Core Architecture)

TRTransformer

Forma modelu (Model Form)

WMWorld Models WAWAM

Źródła i powiązane strony

3 źródła

BlogGenie 3: A new frontier for world models (Google DeepMind, Aug 5, 2025)deepmind.google WebGenie — Google DeepMind models pagedeepmind.google WebProject Genie — Google Labslabs.google

Przeglądaj powiązane tematy

📁 Genie 🧠 Transformer 🧠 World Models 🧠 WAM Wszystkie modele world model