Genie 2 to foundation world model opracowany przez Google DeepMind, zaprezentowany 4 grudnia 2024 roku. Model generuje sterowane akcjami, grywalne środowiska 3D na podstawie pojedynczego obrazu wejściowego (np. wygenerowanego przez Imagen 3) — może być sterowany przez człowieka lub agenta AI za pomocą klawiatury i myszy.
Architektura
Genie 2 jest autoregresyjnym modelem latentnej dyfuzji (latent diffusion), trenowanym na dużym zbiorze wideo. Po przejściu przez autoencoder, latentne klatki wideo są przetwarzane przez duży model dynamiki oparty o transformer z kausalną maską (analogicznie do dużych modeli językowych). W inferencji model jest próbkowany autoregresyjnie klatka po klatce, biorąc pod uwagę pojedyncze akcje i wcześniejsze ukryte klatki. Do poprawy sterowalności akcji zastosowano classifier-free guidance.
Możliwości
Genie 2 generuje spójne światy do około minuty (większość przykładów demonstracyjnych trwa 10–20 s) i wykazuje szereg emergentnych właściwości: rozpoznawanie postaci sterowalnej w scenie, generowanie kontrfaktycznych trajektorii z tej samej klatki początkowej, długodystansową pamięć (poprawne renderowanie obszarów chwilowo poza polem widzenia), animację postaci, modelowanie NPC, efekty fizyczne (woda, dym, grawitacja), oświetlenie kierunkowe i punktowe, odbicia, bloom oraz interakcje obiektów z odpowiednimi affordancjami (otwieranie drzwi, pękanie balonów). Model działa też z prawdziwymi zdjęciami jako prompt.
Zastosowania badawcze
Genie 2 służy do generowania nieograniczonego curriculum nowych światów do trenowania i ewaluacji embodied agents. W publikacji DeepMind pokazano agenta SIMA poruszającego się w środowiskach syntetyzowanych przez Genie 2 wyłącznie z poziomu obrazu prompt, sterowanego językiem naturalnym. Genie 2 działa jako symulator generujący kolejne klatki na podstawie akcji SIMA. Model umożliwia także szybkie prototypowanie scen i konceptów wizualnych przez artystów i projektantów.
Wersja referencyjna i wersja czasu rzeczywistego
Próbki w blogpoście pochodzą z niedestylowanego modelu bazowego (najwyższa jakość). DeepMind raportuje też wersję destylowaną, którą można odpalić w czasie rzeczywistym kosztem niższej jakości generacji. Wagi modelu nie są publicznie udostępniane.