GO-1 (Genie Operator-1)

Generalistyczny fundamentalny model embodied AI od AgiBot (premiera 10.03.2025) — architektura ViLLA (Vision-Language-Latent-Action) łącząca VLM, Latent Planner i Action Expert w jeden stos sterujący różnymi platformami robotów.

✓ Aktywny🏢 Enterprise★ WyróżnionyBazowy model robotycznyModel wzrok-język-akcja

Data premiery

10 marca 2025

🏢AGIBOTProducent

Wdrożenie:📱 Na urządzeniu☁ Cloud

Przegląd

GO-1 (Genie Operator-1) to uniwersalny, generalistyczny fundamentalny model embodied AI rozwijany przez chińską firmę AgiBot, oficjalnie zaprezentowany 10 marca 2025 r. w Szanghaju. Redefiniuje sposób, w jaki roboty postrzegają, rozumieją i działają w świecie rzeczywistym — od sztywnej automatyki zadaniowej w kierunku elastycznej, ogólnej robotyki. GO-1 jest sercem stosu sterowania humanoidów AgiBot, w tym przemysłowego G2 (zaprezentowanego 16.10.2025).

Architektura ViLLA (Vision-Language-Latent-Action)

Nowatorska architektura GO-1 łączy Vision-Language Model (VLM) z Mixture of Experts (MoE), tworząc framework ViLLA. Komponenty pracują synergicznie podczas inferencji: VLM najpierw analizuje scenę i obiekty, Latent Planner przewiduje k latent action tokens, a Action Expert warunkuje proces denoisingu, generując finalne sygnały sterujące.

VLM (Vision-Language Model)

Wykorzystuje heterogeniczne dane internetowe (internet-scale heterogeneous data) jako solidną podstawę do rozumienia sceny i obiektów. Pozwala robotowi interpretować polecenia językowe i powiązać je z percepcją wizualną otoczenia.

Latent Planner (MoE)

Pierwszy ekspert w MoE — uczy się z danych cross-embodiment i z demonstracji ludzkich, budując ogólne rozumienie akcji niezależnie od konkretnego ciała robota. Wyjście to k latent action tokens, które stanowią abstrakcyjny plan działania.

Action Expert (MoE)

Drugi ekspert — trenowany na ponad 1 milionie demonstracji rzeczywistych robotów (AgiBot World Colosseo). Realizuje wysokoczęstotliwościową, zręczną manipulację, konwertując latent tokens z plannera na konkretne sygnały sterujące przez proces denoisingu.

Wyróżniające zdolności

GO-1 oferuje cztery unikatowe właściwości: (1) Learning from Human Videos — uczenie z nagrań wideo ludzi bez teleoperacji, (2) Few-shot Generalization — adaptacja do nowych zadań z minimalnej liczby przykładów, (3) Cross-Embodiment Adaptation — przenoszenie polityki między platformami robotów o różnej kinematyce, (4) Continuous Self-Evolution — ciągłe doskonalenie modelu na podstawie nowych danych operacyjnych.

Zastosowania i wdrożenia

GO-1 napędza przejście od sztywnej automatyki zadaniowej do uniwersalnej robotyki generalistycznej. Wdrożony w produkcji (montaż precyzyjny, transfer części motoryzacyjnych), logistyce (sortowanie paczek), usługach (zwiedzanie z przewodnikiem) i automatyzacji domowej. W humanoidzie AGIBOT G2 działa lokalnie na NVIDIA Jetson Thor T5000 (2070 TFLOPS FP4) z latencją sterowania poniżej 10 ms, w połączeniu z modelem świata GE-1.

Klasyfikacja

Bazowy model robotycznyModel wzrok-język-akcja

Zastosowania

Manipulacja robotyczna Trening polityk robotów

Dostęp i wdrożenie

Na urządzeniuChmura

Wagi: Zamknięte

Kluczowe parametry

✓ Fine-tuning

📥 Wejście: obraz, wideo, tekst, sensory robota…

Robotyka

Robot manipulationBimanual manipulationDexterous manipulationRobot controlScene understandingEmbodied task planning

Specyfikacja techniczna

Licencja

Proprietary (closed)

Wymagania sprzętowe

Wdrażany lokalnie na NVIDIA Jetson Thor T5000 (2070 TFLOPS FP4, latencja sterowania <10 ms) w humanoidzie AGIBOT G2. Trening wymaga klastrów GPU klasy data center.

Funkcje:✓ Fine-tuning

Modalności

⬇ Wejście (Input)

imagevideotextrobot_sensorsrobot_state_data

⬆ Wyjście (Output)

robot_actionsrobot_commandsmotion_trajectoriesmanipulator_control

Możliwości i zastosowania

Natywne możliwości modelu

Transfer międzyucieleśnieniowy

Zdolność jednego modelu do sterowania robotami o różnej budowie (humanoidy, ramiona dwuręczne, platformy mobilne) bez trenowania osobnego modelu na każdą platformę. Inteligencja jest oddzielona od ucieleśnienia, dzięki czemu ta sama polityka działa na sprzęcie o odmiennej kinematyce i dynamice.

Kategoria: robotics

Ugruntowanie wizualno-językowo-akcyjne

Zdolność modelu VLA do łączenia percepcji wizualnej i polecenia językowego z konkretnym działaniem fizycznym robota. Model rozumie scenę i intencję, a następnie generuje sekwencję akcji wykonawczych, zamykając pętlę od obserwacji do ruchu.

Kategoria: robotics

Planowanie

Tworzenie i realizacja planów działania dla złożonych zadań.

Kategoria: planning

Rozumowanie

Zdolność modelu do logicznego wnioskowania i rozwiązywania złożonych problemów.

Kategoria: reasoning

Rozumienie multimodalne

Zdolność modelu do łączenia i interpretowania informacji z więcej niż jednej modalności, np. tekstu i obrazu.

Kategoria: multimodal

Robotyka

Robot manipulationBimanual manipulationDexterous manipulationRobot controlScene understandingEmbodied task planning