GE-1

Wideo-generatywny model świata AgiBot dla sterowania robotami (premiera sierpień 2025). Zamknięta pętla generacja wideo + uczenie polityk + ewaluacja symulacyjna realizuje rozumowanie end-to-end widzenie → myślenie → działanie. Partner GO-1 w humanoidzie G2.

✓ Aktywny🏢 EnterpriseModel świataModel generowania wideo

Data premiery

1 sierpnia 2025

🏢AGIBOTProducent

Wdrożenie:📱 Na urządzeniu☁ Cloud

Przegląd

GE-1 to wideo-generatywny model świata (video-generative world model) opracowany przez chińską firmę AgiBot, opublikowany w sierpniu 2025 r. Jest projektowany jako partner modelu fundamentalnego GO-1 w stosie sterowania humanoidalnych robotów AgiBot — w przemysłowym G2 (premiera 16.10.2025) GE-1 odpowiada za predykcję przyszłych scenariuszy w czasie i przestrzeni, pozwalając robotowi repetować akcje w wirtualnym środowisku przed wykonaniem ich w realu.

Architektura zamkniętej pętli

GE-1 łączy trzy komponenty w jednej zamkniętej pętli: (1) generacja wideo — przewidywanie przyszłych klatek obserwacji warunkowane akcjami robota, (2) uczenie polityk — wykorzystanie symulowanych przyszłych scenariuszy do dostrajania polityki sterowania, (3) ewaluacja symulacyjna — walidacja planowanych akcji w wirtualnym świecie przed wykonaniem fizycznym. Łącznie realizuje pełne rozumowanie end-to-end od widzenia, przez myślenie, do działania.

Współpraca z GO-1

GE-1 nie zastępuje GO-1, lecz go uzupełnia. GO-1 (ViLLA: VLM + Latent Planner + Action Expert) generuje sygnały sterujące dla bieżącej akcji, GE-1 dostarcza horyzont przewidywania w postaci wygenerowanego wideo i symulacji. Ta dwumodelowa konfiguracja jest sercem AI w humanoidzie G2 — działa lokalnie na NVIDIA Jetson Thor T5000 (2070 TFLOPS FP4), z całkowitą latencją sterowania poniżej 10 ms.

Pozycja na tle pola

GE-1 wpisuje się w szerszy nurt modeli świata dla robotyki (world models, action-conditioned video generation), gdzie generowane przewidywania zastępują kosztowne lub niebezpieczne próby fizyczne. Podobne podejścia: NVIDIA Cosmos, Google Genie 3, World Action Model. GE-1 wyróżnia się integracją z gotowym stosem produkcyjnym (GO-1 + G2) i deklarowaną dojrzałością przemysłową — model nie jest tylko prototypem badawczym.

Klasyfikacja

Model świataModel generowania wideo

Zastosowania

Trening polityk robotów Manipulacja robotyczna

Dostęp i wdrożenie

Na urządzeniuChmura

Wagi: Zamknięte

Kluczowe parametry

📥 Wejście: obraz, wideo, sensory robota, dane stanu robota

Robotyka

Embodied task planningScene understandingSpatial predictionEnvironment modeling

Specyfikacja techniczna

Licencja

Proprietary (closed)

Wymagania sprzętowe

Wdrażany lokalnie na NVIDIA Jetson Thor T5000 (2070 TFLOPS FP4) w humanoidzie AGIBOT G2, razem z GO-1. Trening generatywnego modelu wideo wymaga klastrów GPU klasy data center.

Modalności

⬇ Wejście (Input)

imagevideorobot_sensorsrobot_state_data

⬆ Wyjście (Output)

videorobot_actionsmotion_trajectories

Możliwości i zastosowania

Natywne możliwości modelu

Generowanie wideo

Zdolność modelu do generowania klipów wideo z opisu tekstowego, obrazu lub innego wideo, z kontrolą długości, rozdzielczości i charakterystyk wizualnych.

Kategoria: video

Rozumienie wideo

Zdolność modelu do analizy i interpretacji treści wideo — rozpoznawania akcji, ruchu, zdarzeń oraz relacji między obiektami w czasie.

Kategoria: video

Planowanie

Tworzenie i realizacja planów działania dla złożonych zadań.

Kategoria: planning

Rozumowanie

Zdolność modelu do logicznego wnioskowania i rozwiązywania złożonych problemów.

Kategoria: reasoning

Robotyka

Embodied task planningScene understandingSpatial predictionEnvironment modeling