Robocikowo>ROBOCIKOWO
Genie 2

Genie 2

2 · Rodzina: Genie
Foundation world model od Google DeepMind generujący sterowane akcjami środowiska 3D z pojedynczego obrazu. Spójne światy do około minuty, sterowane klawiaturą i myszą.
🔬 Research🔬 Research onlyModel świata📁 Genie
Data premiery
4 grudnia 2024
Dostęp:HostedWdrożenie:☁ Cloud

Przegląd

Genie 2 to foundation world model opracowany przez Google DeepMind, zaprezentowany 4 grudnia 2024 roku. Model generuje sterowane akcjami, grywalne środowiska 3D na podstawie pojedynczego obrazu wejściowego (np. wygenerowanego przez Imagen 3) — może być sterowany przez człowieka lub agenta AI za pomocą klawiatury i myszy.

Architektura

Genie 2 jest autoregresyjnym modelem latentnej dyfuzji (latent diffusion), trenowanym na dużym zbiorze wideo. Po przejściu przez autoencoder, latentne klatki wideo są przetwarzane przez duży model dynamiki oparty o transformer z kausalną maską (analogicznie do dużych modeli językowych). W inferencji model jest próbkowany autoregresyjnie klatka po klatce, biorąc pod uwagę pojedyncze akcje i wcześniejsze ukryte klatki. Do poprawy sterowalności akcji zastosowano classifier-free guidance.

Możliwości

Genie 2 generuje spójne światy do około minuty (większość przykładów demonstracyjnych trwa 10–20 s) i wykazuje szereg emergentnych właściwości: rozpoznawanie postaci sterowalnej w scenie, generowanie kontrfaktycznych trajektorii z tej samej klatki początkowej, długodystansową pamięć (poprawne renderowanie obszarów chwilowo poza polem widzenia), animację postaci, modelowanie NPC, efekty fizyczne (woda, dym, grawitacja), oświetlenie kierunkowe i punktowe, odbicia, bloom oraz interakcje obiektów z odpowiednimi affordancjami (otwieranie drzwi, pękanie balonów). Model działa też z prawdziwymi zdjęciami jako prompt.

Zastosowania badawcze

Genie 2 służy do generowania nieograniczonego curriculum nowych światów do trenowania i ewaluacji embodied agents. W publikacji DeepMind pokazano agenta SIMA poruszającego się w środowiskach syntetyzowanych przez Genie 2 wyłącznie z poziomu obrazu prompt, sterowanego językiem naturalnym. Genie 2 działa jako symulator generujący kolejne klatki na podstawie akcji SIMA. Model umożliwia także szybkie prototypowanie scen i konceptów wizualnych przez artystów i projektantów.

Wersja referencyjna i wersja czasu rzeczywistego

Próbki w blogpoście pochodzą z niedestylowanego modelu bazowego (najwyższa jakość). DeepMind raportuje też wersję destylowaną, którą można odpalić w czasie rzeczywistym kosztem niższej jakości generacji. Wagi modelu nie są publicznie udostępniane.

Klasyfikacja
Model świata
Rodzina: Genie
Dostęp i wdrożenie
Hostowane
Chmura
Wagi: Zamknięte
Kluczowe parametry
📥 Wejście: obraz, dane strukturalne
Robotyka
Environment modelingSpatial predictionScene understanding

Specyfikacja techniczna

Modalności
⬇ Wejście (Input)
imagestructured_data
⬆ Wyjście (Output)
video

Możliwości i zastosowania

Natywne możliwości modelu
Rozumienie wideo
Zdolność modelu do analizy i interpretacji treści wideo — rozpoznawania akcji, ruchu, zdarzeń oraz relacji między obiektami w czasie.
Kategoria: video
Planowanie
Zdolność modelu do wyznaczania sekwencji działań prowadzących do celu — przewidywania skutków akcji i wyboru optymalnej ścieżki w danym środowisku.
Kategoria: planning
Robotyka
Environment modelingSpatial predictionScene understanding

Architektura techniczna

Rdzeń architektury (Core Architecture)
Forma modelu (Model Form)