Robocikowo>ROBOCIKOWO
GO-1 (Genie Operator-1)

GO-1 (Genie Operator-1)

1
Generalistyczny fundamentalny model embodied AI od AgiBot (premiera 10.03.2025) — architektura ViLLA (Vision-Language-Latent-Action) łącząca VLM, Latent Planner i Action Expert w jeden stos sterujący różnymi platformami robotów.
✓ Aktywny🏢 EnterpriseWyróżnionyBazowy model robotycznyModel wzrok-język-akcja
Data premiery
10 marca 2025
Wdrożenie:📱 Na urządzeniu☁ Cloud

Przegląd

GO-1 (Genie Operator-1) to uniwersalny, generalistyczny fundamentalny model embodied AI rozwijany przez chińską firmę AgiBot, oficjalnie zaprezentowany 10 marca 2025 r. w Szanghaju. Redefiniuje sposób, w jaki roboty postrzegają, rozumieją i działają w świecie rzeczywistym — od sztywnej automatyki zadaniowej w kierunku elastycznej, ogólnej robotyki. GO-1 jest sercem stosu sterowania humanoidów AgiBot, w tym przemysłowego G2 (zaprezentowanego 16.10.2025).

Architektura ViLLA (Vision-Language-Latent-Action)

Nowatorska architektura GO-1 łączy Vision-Language Model (VLM) z Mixture of Experts (MoE), tworząc framework ViLLA. Komponenty pracują synergicznie podczas inferencji: VLM najpierw analizuje scenę i obiekty, Latent Planner przewiduje k latent action tokens, a Action Expert warunkuje proces denoisingu, generując finalne sygnały sterujące.

VLM (Vision-Language Model)

Wykorzystuje heterogeniczne dane internetowe (internet-scale heterogeneous data) jako solidną podstawę do rozumienia sceny i obiektów. Pozwala robotowi interpretować polecenia językowe i powiązać je z percepcją wizualną otoczenia.

Latent Planner (MoE)

Pierwszy ekspert w MoE — uczy się z danych cross-embodiment i z demonstracji ludzkich, budując ogólne rozumienie akcji niezależnie od konkretnego ciała robota. Wyjście to k latent action tokens, które stanowią abstrakcyjny plan działania.

Action Expert (MoE)

Drugi ekspert — trenowany na ponad 1 milionie demonstracji rzeczywistych robotów (AgiBot World Colosseo). Realizuje wysokoczęstotliwościową, zręczną manipulację, konwertując latent tokens z plannera na konkretne sygnały sterujące przez proces denoisingu.

Wyróżniające zdolności

GO-1 oferuje cztery unikatowe właściwości: (1) Learning from Human Videos — uczenie z nagrań wideo ludzi bez teleoperacji, (2) Few-shot Generalization — adaptacja do nowych zadań z minimalnej liczby przykładów, (3) Cross-Embodiment Adaptation — przenoszenie polityki między platformami robotów o różnej kinematyce, (4) Continuous Self-Evolution — ciągłe doskonalenie modelu na podstawie nowych danych operacyjnych.

Zastosowania i wdrożenia

GO-1 napędza przejście od sztywnej automatyki zadaniowej do uniwersalnej robotyki generalistycznej. Wdrożony w produkcji (montaż precyzyjny, transfer części motoryzacyjnych), logistyce (sortowanie paczek), usługach (zwiedzanie z przewodnikiem) i automatyzacji domowej. W humanoidzie AGIBOT G2 działa lokalnie na NVIDIA Jetson Thor T5000 (2070 TFLOPS FP4) z latencją sterowania poniżej 10 ms, w połączeniu z modelem świata GE-1.

Klasyfikacja
Bazowy model robotycznyModel wzrok-język-akcja
Dostęp i wdrożenie
Na urządzeniuChmura
Wagi: Zamknięte
Kluczowe parametry
✓ Fine-tuning
📥 Wejście: obraz, wideo, tekst, sensory robota
Robotyka
Robot manipulationBimanual manipulationDexterous manipulationRobot controlScene understandingEmbodied task planning

Specyfikacja techniczna

Licencja
Proprietary (closed)
Wymagania sprzętowe
Wdrażany lokalnie na NVIDIA Jetson Thor T5000 (2070 TFLOPS FP4, latencja sterowania <10 ms) w humanoidzie AGIBOT G2. Trening wymaga klastrów GPU klasy data center.
Funkcje:Fine-tuning
Modalności
⬇ Wejście (Input)
imagevideotextrobot_sensorsrobot_state_data
⬆ Wyjście (Output)
robot_actionsrobot_commandsmotion_trajectoriesmanipulator_control

Możliwości i zastosowania

Natywne możliwości modelu
Transfer międzyucieleśnieniowy
Zdolność jednego modelu do sterowania robotami o różnej budowie (humanoidy, ramiona dwuręczne, platformy mobilne) bez trenowania osobnego modelu na każdą platformę. Inteligencja jest oddzielona od ucieleśnienia, dzięki czemu ta sama polityka działa na sprzęcie o odmiennej kinematyce i dynamice.
Kategoria: robotics
Ugruntowanie wizualno-językowo-akcyjne
Zdolność modelu VLA do łączenia percepcji wizualnej i polecenia językowego z konkretnym działaniem fizycznym robota. Model rozumie scenę i intencję, a następnie generuje sekwencję akcji wykonawczych, zamykając pętlę od obserwacji do ruchu.
Kategoria: robotics
Planowanie
Tworzenie i realizacja planów działania dla złożonych zadań.
Kategoria: planning
Rozumowanie
Zdolność modelu do logicznego wnioskowania i rozwiązywania złożonych problemów.
Kategoria: reasoning
Rozumienie multimodalne
Zdolność modelu do łączenia i interpretowania informacji z więcej niż jednej modalności, np. tekstu i obrazu.
Kategoria: multimodal
Robotyka
Robot manipulationBimanual manipulationDexterous manipulationRobot controlScene understandingEmbodied task planning

Architektura techniczna

Rdzeń architektury (Core Architecture)
Forma modelu (Model Form)
Techniki trenowania (Training Techniques)

Wdrożenie i bezpieczeństwo

🤖 Powiązane roboty