Robocikowo>ROBOCIKOWO
GAIA-1

GAIA-1

1
Generatywny model świata Wayve do jazdy autonomicznej. Z wideo, tekstu i akcji generuje realistyczne sekwencje wideo jazdy.
🔬 Research🔬 Research onlyModel świataModel generowania wideoModel multimodalny
Parametry
9B
parametrów
Data premiery
20 czerwca 2023
Wdrożenie:☁ Cloud

Przegląd

GAIA-1 to generatywny model świata (world model) opracowany przez brytyjską firmę Wayve dla potrzeb jazdy autonomicznej. Model przyjmuje na wejściu sekwencje wideo, opis tekstowy i wektor akcji (sterowanie pojazdem), a na wyjściu generuje realistyczne sekwencje wideo z perspektywy kierowcy, spójne fizycznie i geometrycznie ze scenariuszem ruchu drogowego.

Architektura

Model łączy autoregresywny transformator (~6,5 mld parametrów) — który operuje na dyskretnych tokenach wideo, tekstu i akcji — z dyfuzyjnym dekoderem wideo (~2,6 mld parametrów) renderującym z tokenów ciągłe klatki obrazu. Łącznie ok. 9 mld parametrów. Trenowany na ok. 4700 godzin danych jazdy zebranych przez Wayve w Wielkiej Brytanii.

Zastosowanie

GAIA-1 nie steruje pojazdem — służy do generowania danych syntetycznych i scenariuszy do treningu i ewaluacji systemów jazdy autonomicznej, w tym zdarzeń rzadkich (corner cases). Pozwala kontrolowanie warunków pogodowych, oświetlenia, zachowania innych uczestników ruchu i komend pojazdu poprzez prompty tekstowe i wektory akcji.

Klasyfikacja
Model świataModel generowania wideoModel multimodalny
Dostęp i wdrożenie
Chmura
Wagi: Zamknięte
Kluczowe parametry
🧩 Parametry: 9B
📥 Wejście: wideo, tekst
Robotyka
Environment modelingSpatial predictionScene understanding

Specyfikacja techniczna

Parametry
9B
parametrów
Licencja
Proprietary (research, not released)
Modalności
⬇ Wejście (Input)
videotext
⬆ Wyjście (Output)
video

Możliwości i zastosowania

Natywne możliwości modelu
Generowanie wideo
Zdolność modelu do generowania klipów wideo z opisu tekstowego, obrazu lub innego wideo, z kontrolą długości, rozdzielczości i charakterystyk wizualnych.
Kategoria: video
Generowanie danych syntetycznych
Generowanie syntetycznych zbiorów danych zachowujących statystyczne właściwości oryginału, używanych do uczenia modeli, testów i ochrony prywatności.
Kategoria: structured_generation
Animacja obrazu (image-to-video)
Zdolność modelu do animowania statycznego obrazu wejściowego — przedłużania go w czasie do spójnego klipu wideo zgodnie z opisem ruchu lub akcji.
Kategoria: video
Robotyka
Environment modelingSpatial predictionScene understanding

Architektura techniczna

Forma modelu (Model Form)