GAIA-1

1 · Rodzina: GAIA

Generatywny model świata Wayve do jazdy autonomicznej. Z wideo, tekstu i akcji generuje realistyczne sekwencje wideo jazdy.

🔬 Research🔬 Research onlyModel świataModel generowania wideoModel multimodalny📁 GAIA

Parametry

parametrów

Data premiery

20 czerwca 2023

🏢WayveProducent

Wdrożenie:☁ Cloud

Przegląd

GAIA-1 to generatywny model świata (world model) opracowany przez brytyjską firmę Wayve dla potrzeb jazdy autonomicznej. Model przyjmuje na wejściu sekwencje wideo, opis tekstowy i wektor akcji (sterowanie pojazdem), a na wyjściu generuje realistyczne sekwencje wideo z perspektywy kierowcy, spójne fizycznie i geometrycznie ze scenariuszem ruchu drogowego.

Architektura

Model łączy autoregresywny transformator (~6,5 mld parametrów) — który operuje na dyskretnych tokenach wideo, tekstu i akcji — z dyfuzyjnym dekoderem wideo (~2,6 mld parametrów) renderującym z tokenów ciągłe klatki obrazu. Łącznie ok. 9 mld parametrów. Trenowany na ok. 4700 godzin danych jazdy zebranych przez Wayve w Wielkiej Brytanii.

Zastosowanie

GAIA-1 nie steruje pojazdem — służy do generowania danych syntetycznych i scenariuszy do treningu i ewaluacji systemów jazdy autonomicznej, w tym zdarzeń rzadkich (corner cases). Pozwala kontrolowanie warunków pogodowych, oświetlenia, zachowania innych uczestników ruchu i komend pojazdu poprzez prompty tekstowe i wektory akcji.

Klasyfikacja

Model świataModel generowania wideoModel multimodalny

Rodzina: GAIA

Zastosowania

Symulacja i dane syntetyczne Trening polityk robotów

Dostęp i wdrożenie

Chmura

Wagi: Zamknięte

Kluczowe parametry

🧩 Parametry: 9B

📥 Wejście: wideo, tekst

Robotyka

Environment modelingSpatial predictionScene understanding

Specyfikacja techniczna

Parametry

parametrów

Licencja

Proprietary (research, not released)

Modalności

⬇ Wejście (Input)

videotext

⬆ Wyjście (Output)

video

Możliwości i zastosowania

Natywne możliwości modelu

Generowanie wideo

Zdolność modelu do generowania klipów wideo z opisu tekstowego, obrazu lub innego wideo, z kontrolą długości, rozdzielczości i charakterystyk wizualnych.

Kategoria: video

Generowanie danych syntetycznych

Generowanie syntetycznych zbiorów danych zachowujących statystyczne właściwości oryginału, używanych do uczenia modeli, testów i ochrony prywatności.

Kategoria: structured_generation

Animacja obrazu (image-to-video)

Zdolność modelu do animowania statycznego obrazu wejściowego — przedłużania go w czasie do spójnego klipu wideo zgodnie z opisem ruchu lub akcji.

Kategoria: video

Robotyka

Environment modelingSpatial predictionScene understanding

Dziedziny zastosowań

Symulacja i dane syntetyczne Trening polityk robotów