Robocikowo>ROBOCIKOWO
Genie 3

Genie 3

3 · Rodzina: Genie
Foundation world model od Google DeepMind generujący interaktywne światy 3D z promptu tekstowego, w czasie rzeczywistym 24 fps, 720p, ze spójnością do kilku minut.
⏳ Preview⏳ Ograniczony dostępModel świata📁 Genie
Data premiery
5 sierpnia 2025
Dostęp:HostedWdrożenie:☁ Cloud

Przegląd

Genie 3 to ogólnoprzeznaczeniowy foundation world model opracowany przez Google DeepMind, ogłoszony 5 sierpnia 2025 roku przez Jacka Parker-Holdera i Shlomiego Fruchtera. Z polecenia tekstowego model generuje dynamiczne, interaktywne światy 3D, po których można nawigować w czasie rzeczywistym z prędkością 24 klatek na sekundę w rozdzielczości 720p, zachowując spójność przez kilka minut.

Postęp względem Genie 2

Genie 3 jest pierwszym modelem rodziny Genie umożliwiającym interakcję w czasie rzeczywistym, jednocześnie poprawiając spójność i realizm względem Genie 2 (grudzień 2024). Spójność wizualna sięga około jednej minuty wstecz — model pamięta i poprawnie renderuje obszary wcześniej widziane po powrocie do nich. W przeciwieństwie do podejść takich jak NeRF czy Gaussian Splatting, Genie 3 nie korzysta z jawnej reprezentacji 3D — światy są generowane klatka po klatce na podstawie opisu i akcji użytkownika, co czyni je bardziej dynamicznymi i bogatymi.

Promptable world events

Oprócz wejścia nawigacyjnego, Genie 3 wprowadza tzw. promptable world events — formę tekstowej interakcji pozwalającą zmieniać świat w trakcie symulacji (zmiana pogody, dodanie nowych obiektów lub postaci). Mechanizm ten zwiększa zakres możliwych scenariuszy kontrfaktycznych ("co jeśli") wykorzystywanych do trenowania agentów uczących się z doświadczenia.

Embodied agent research

Genie 3 generuje światy do trenowania i ewaluacji embodied agents. DeepMind zademonstrował współpracę z najnowszą wersją agenta SIMA: w środowiskach generowanych przez Genie 3 SIMA realizuje wskazane cele, wysyłając do modelu akcje nawigacyjne, a Genie 3 — bez wiedzy o celu agenta — symuluje przyszłe klatki. Dłuższa spójność światów pozwala na realizację dłuższych sekwencji akcji i bardziej złożonych zadań.

Ograniczenia

Wskazane przez DeepMind ograniczenia: ograniczona przestrzeń akcji wykonywanych bezpośrednio przez agenta, niedoskonałe modelowanie interakcji wielu niezależnych agentów, brak idealnej geograficznej wierności rzeczywistych miejsc, problemy z renderowaniem czytelnego tekstu (chyba że został podany w opisie świata) oraz ograniczony czas ciągłej interakcji do kilku minut, nie wielu godzin.

Dostępność

Genie 3 został udostępniony jako limited research preview dla niewielkiej grupy akademików i twórców. Wagi nie są publicznie dostępne; brak publicznego API. DeepMind sygnalizuje plany rozszerzenia dostępu do kolejnych testerów.

Klasyfikacja
Model świata
Rodzina: Genie
Dostęp i wdrożenie
Hostowane
Chmura
Wagi: Zamknięte
Kluczowe parametry
📥 Wejście: tekst, dane strukturalne
Robotyka
Environment modelingSpatial predictionScene understandingSpatial reasoning

Specyfikacja techniczna

Modalności
⬇ Wejście (Input)
textstructured_data
⬆ Wyjście (Output)
video

Możliwości i zastosowania

Natywne możliwości modelu
Rozumienie wideo
Zdolność modelu do analizy i interpretacji treści wideo — rozpoznawania akcji, ruchu, zdarzeń oraz relacji między obiektami w czasie.
Kategoria: video
Planowanie
Zdolność modelu do wyznaczania sekwencji działań prowadzących do celu — przewidywania skutków akcji i wyboru optymalnej ścieżki w danym środowisku.
Kategoria: planning
Robotyka
Environment modelingSpatial predictionScene understandingSpatial reasoning

Architektura techniczna

Rdzeń architektury (Core Architecture)
Forma modelu (Model Form)