Genie 2

2 · Rodzina: Genie

Foundation world model od Google DeepMind generujący sterowane akcjami środowiska 3D z pojedynczego obrazu. Spójne światy do około minuty, sterowane klawiaturą i myszą.

🔬 Research🔬 Research onlyModel świata📁 Genie

Data premiery

4 grudnia 2024

🏢Google DeepMindProducent

Dostęp:HostedWdrożenie:☁ Cloud

Przegląd

Genie 2 to foundation world model opracowany przez Google DeepMind, zaprezentowany 4 grudnia 2024 roku. Model generuje sterowane akcjami, grywalne środowiska 3D na podstawie pojedynczego obrazu wejściowego (np. wygenerowanego przez Imagen 3) — może być sterowany przez człowieka lub agenta AI za pomocą klawiatury i myszy.

Architektura

Genie 2 jest autoregresyjnym modelem latentnej dyfuzji (latent diffusion), trenowanym na dużym zbiorze wideo. Po przejściu przez autoencoder, latentne klatki wideo są przetwarzane przez duży model dynamiki oparty o transformer z kausalną maską (analogicznie do dużych modeli językowych). W inferencji model jest próbkowany autoregresyjnie klatka po klatce, biorąc pod uwagę pojedyncze akcje i wcześniejsze ukryte klatki. Do poprawy sterowalności akcji zastosowano classifier-free guidance.

Możliwości

Genie 2 generuje spójne światy do około minuty (większość przykładów demonstracyjnych trwa 10–20 s) i wykazuje szereg emergentnych właściwości: rozpoznawanie postaci sterowalnej w scenie, generowanie kontrfaktycznych trajektorii z tej samej klatki początkowej, długodystansową pamięć (poprawne renderowanie obszarów chwilowo poza polem widzenia), animację postaci, modelowanie NPC, efekty fizyczne (woda, dym, grawitacja), oświetlenie kierunkowe i punktowe, odbicia, bloom oraz interakcje obiektów z odpowiednimi affordancjami (otwieranie drzwi, pękanie balonów). Model działa też z prawdziwymi zdjęciami jako prompt.

Zastosowania badawcze

Genie 2 służy do generowania nieograniczonego curriculum nowych światów do trenowania i ewaluacji embodied agents. W publikacji DeepMind pokazano agenta SIMA poruszającego się w środowiskach syntetyzowanych przez Genie 2 wyłącznie z poziomu obrazu prompt, sterowanego językiem naturalnym. Genie 2 działa jako symulator generujący kolejne klatki na podstawie akcji SIMA. Model umożliwia także szybkie prototypowanie scen i konceptów wizualnych przez artystów i projektantów.

Wersja referencyjna i wersja czasu rzeczywistego

Próbki w blogpoście pochodzą z niedestylowanego modelu bazowego (najwyższa jakość). DeepMind raportuje też wersję destylowaną, którą można odpalić w czasie rzeczywistym kosztem niższej jakości generacji. Wagi modelu nie są publicznie udostępniane.

Klasyfikacja

Model świata

Rodzina: Genie

Dostęp i wdrożenie

Hostowane

Chmura

Wagi: Zamknięte

Kluczowe parametry

📥 Wejście: obraz, dane strukturalne

Robotyka

Environment modelingSpatial predictionScene understanding

Specyfikacja techniczna

Modalności

⬇ Wejście (Input)

imagestructured_data

⬆ Wyjście (Output)

video

Możliwości i zastosowania

Natywne możliwości modelu

Rozumienie wideo

Zdolność modelu do analizy i interpretacji treści wideo — rozpoznawania akcji, ruchu, zdarzeń oraz relacji między obiektami w czasie.

Kategoria: video

Planowanie

Tworzenie i realizacja planów działania dla złożonych zadań.

Kategoria: planning

Robotyka

Environment modelingSpatial predictionScene understanding

Architektura techniczna

Rdzeń architektury (Core Architecture)

DMDiffusion Model TRTransformer

Forma modelu (Model Form)

WMWorld Models WAWAM

Źródła i powiązane strony

3 źródła

BlogGenie 2: A large-scale foundation world model (Google DeepMind)deepmind.google WebGenie — Google DeepMind models pagedeepmind.google WebProject Genie — Google Labslabs.google

Przeglądaj powiązane tematy

📁 Genie 🧠 Diffusion Model 🧠 Transformer 🧠 World Models Wszystkie modele world model