
Generalistyczny fundamentalny model embodied AI od AgiBot (premiera 10.03.2025) — architektura ViLLA (Vision-Language-Latent-Action) łącząca VLM, Latent Planner i Action Expert w jeden stos sterujący różnymi platformami robotów.
✓ Aktywny🏢 Enterprise★ WyróżnionyBazowy model robotycznyModel wzrok-język-akcja
Data premiery
10 marca 2025
Wdrożenie:📱 Na urządzeniu☁ Cloud
Przegląd
Klasyfikacja
Bazowy model robotycznyModel wzrok-język-akcja
Zastosowania
Dostęp i wdrożenie
Na urządzeniuChmura
Wagi: Zamknięte
Kluczowe parametry
✓ Fine-tuning
📥 Wejście: obraz, wideo, tekst, sensory robota…
Robotyka
Robot manipulationBimanual manipulationDexterous manipulationRobot controlScene understandingEmbodied task planning
Specyfikacja techniczna
Licencja
Proprietary (closed)
Wymagania sprzętowe
Wdrażany lokalnie na NVIDIA Jetson Thor T5000 (2070 TFLOPS FP4, latencja sterowania <10 ms) w humanoidzie AGIBOT G2. Trening wymaga klastrów GPU klasy data center.
Funkcje:✓ Fine-tuning
Modalności
⬇ Wejście (Input)
imagevideotextrobot_sensorsrobot_state_data
⬆ Wyjście (Output)
robot_actionsrobot_commandsmotion_trajectoriesmanipulator_control
Możliwości i zastosowania
Natywne możliwości modelu
Transfer międzyucieleśnieniowy
Zdolność jednego modelu do sterowania robotami o różnej budowie (humanoidy, ramiona dwuręczne, platformy mobilne) bez trenowania osobnego modelu na każdą platformę. Inteligencja jest oddzielona od ucieleśnienia, dzięki czemu ta sama polityka działa na sprzęcie o odmiennej kinematyce i dynamice.
Kategoria: robotics
Ugruntowanie wizualno-językowo-akcyjne
Zdolność modelu VLA do łączenia percepcji wizualnej i polecenia językowego z konkretnym działaniem fizycznym robota. Model rozumie scenę i intencję, a następnie generuje sekwencję akcji wykonawczych, zamykając pętlę od obserwacji do ruchu.
Kategoria: robotics
Planowanie
Tworzenie i realizacja planów działania dla złożonych zadań.
Kategoria: planning
Rozumowanie
Zdolność modelu do logicznego wnioskowania i rozwiązywania złożonych problemów.
Kategoria: reasoning
Rozumienie multimodalne
Zdolność modelu do łączenia i interpretowania informacji z więcej niż jednej modalności, np. tekstu i obrazu.
Kategoria: multimodal
Robotyka
Robot manipulationBimanual manipulationDexterous manipulationRobot controlScene understandingEmbodied task planning
Dziedziny zastosowań
Architektura techniczna
Rdzeń architektury (Core Architecture)
Techniki trenowania (Training Techniques)
Wdrożenie i bezpieczeństwo
🤖 Powiązane roboty
Źródła i powiązane strony
5 źródeł
PaperAgiBot GO-1 White Paper (PDF)BlogNewsfile / 41Caijing — AgiBot Innovates Robotics with the Launch of Genie Operator-1 (GO-1) (10.03.2025)WebAgiBot World Colosseo — OpenDriveLab (dataset 1M+ real robot demonstrations, GO-1 reference)LinkAgiBot GO-1 Official Launch Video (YouTube)BlogPR Newswire — Agibot Unveils Next-Gen Industrial Embodied Robot G2 (powered by GO-1, 16.10.2025)