Genie 3 to ogólnoprzeznaczeniowy foundation world model opracowany przez Google DeepMind, ogłoszony 5 sierpnia 2025 roku przez Jacka Parker-Holdera i Shlomiego Fruchtera. Z polecenia tekstowego model generuje dynamiczne, interaktywne światy 3D, po których można nawigować w czasie rzeczywistym z prędkością 24 klatek na sekundę w rozdzielczości 720p, zachowując spójność przez kilka minut.
Postęp względem Genie 2
Genie 3 jest pierwszym modelem rodziny Genie umożliwiającym interakcję w czasie rzeczywistym, jednocześnie poprawiając spójność i realizm względem Genie 2 (grudzień 2024). Spójność wizualna sięga około jednej minuty wstecz — model pamięta i poprawnie renderuje obszary wcześniej widziane po powrocie do nich. W przeciwieństwie do podejść takich jak NeRF czy Gaussian Splatting, Genie 3 nie korzysta z jawnej reprezentacji 3D — światy są generowane klatka po klatce na podstawie opisu i akcji użytkownika, co czyni je bardziej dynamicznymi i bogatymi.
Promptable world events
Oprócz wejścia nawigacyjnego, Genie 3 wprowadza tzw. promptable world events — formę tekstowej interakcji pozwalającą zmieniać świat w trakcie symulacji (zmiana pogody, dodanie nowych obiektów lub postaci). Mechanizm ten zwiększa zakres możliwych scenariuszy kontrfaktycznych ("co jeśli") wykorzystywanych do trenowania agentów uczących się z doświadczenia.
Embodied agent research
Genie 3 generuje światy do trenowania i ewaluacji embodied agents. DeepMind zademonstrował współpracę z najnowszą wersją agenta SIMA: w środowiskach generowanych przez Genie 3 SIMA realizuje wskazane cele, wysyłając do modelu akcje nawigacyjne, a Genie 3 — bez wiedzy o celu agenta — symuluje przyszłe klatki. Dłuższa spójność światów pozwala na realizację dłuższych sekwencji akcji i bardziej złożonych zadań.
Ograniczenia
Wskazane przez DeepMind ograniczenia: ograniczona przestrzeń akcji wykonywanych bezpośrednio przez agenta, niedoskonałe modelowanie interakcji wielu niezależnych agentów, brak idealnej geograficznej wierności rzeczywistych miejsc, problemy z renderowaniem czytelnego tekstu (chyba że został podany w opisie świata) oraz ograniczony czas ciągłej interakcji do kilku minut, nie wielu godzin.
Dostępność
Genie 3 został udostępniony jako limited research preview dla niewielkiej grupy akademików i twórców. Wagi nie są publicznie dostępne; brak publicznego API. DeepMind sygnalizuje plany rozszerzenia dostępu do kolejnych testerów.