GO-1 Air

GO-1 Air to lżejsza wersja foundation modelu Vision-Language-Action GO-1 od AgiBot/OpenDriveLab — bez Latent Plannera. 3B parametrów, oparta na InternVL 2.5-2B, pretrenowana na dataset AgiBot World Beta. CC BY-NC-SA 4.0.

✓ AktywnyBazowy model robotycznyModel wzrok-język-akcja📁 GO-1 (Genie Operator-1)

Parametry

parametrów

Data premiery

19 września 2025

🏢AGIBOTProducent

Dostęp:open_weightsopen_sourceWdrożenie:💻 Lokalnie📱 Na urządzeniu☁ Cloud

Przegląd

GO-1 Air to wersja foundation modelu Vision-Language-Action GO-1 (Genie Operator-1) bez komponentu Latent Planner, otwartoźródłowo udostępniona 19 września 2025 r. przez zespół AgiBot-World (OpenDriveLab + AgiBot). W przeciwieństwie do pełnego GO-1, GO-1 Air został zaprojektowany jako wariant high-performance i lightweight — z mniejszym rozmiarem (3B parametrów) i szybszą inferencją kosztem rezygnacji z warstwy planowania utajonego.

Architektura

GO-1 Air bazuje na Vision-Language Model InternVL 2.5-2B (OpenGVLab) i dodaje warstwę Action Expert do generowania trajektorii sterowania robotem. Akcje są predykowane w absolutnej przestrzeni stawowej (absolute joint space) z chunk size 30 (dopasowane do częstotliwości 30 Hz datasetu AgiBot World). Model nie zawiera komponentu Latent Planner obecnego w pełnym GO-1, który przewiduje utajone plany działania na wyższym poziomie abstrakcji.

Trening i dane

Model pretrenowano na zbiorze AgiBot World Beta (~1 003 672 trajektorii, ~43,8 TB) zawierającym dane z humanoida AgiBot G1 i pokrywającym 100+ scenariuszy z 5 docelowych domen (retail, przemysł, gastronomia, dom, biuro). Wbrew intuicji branżowej pretrening na pojedynczym embodimencie (AgiBot G1) zapewnia lepszą zdolność cross-embodiment transfer niż pretrening multi-robot — model po fine-tuningu z <200 demonstracjami przenosi się na AgileX Cobot Magic (Aloha), Dual Franka (LIBERO) i RoboTwin.

Wymagania sprzętowe

Inferencja: ~7 GB GPU memory (działa na pojedynczym RTX 4090). Fine-tuning pełny (wszystkie wagi): ~70 GB przy batch size 16 (wymaga A100 80 GB lub H100). Fine-tuning ograniczony do Action Expert: ~24 GB przy batch size 16 (RTX 4090, A100 40 GB). Zalecane CUDA 12.4, Flash Attention 2.4.2 oraz framework LeRobot dataset v2.1 (commit 2b71789).

Otwarcie i dostępność

GO-1 Air jest publicznie dostępny na HuggingFace pod adresem agibot-world/GO-1-Air na licencji CC BY-NC-SA 4.0 (niekomercyjna). Czeckpoint zapisany w formacie Safetensors, BF16. Loader: transformers.AutoModel z trust_remote_code=True. Model został opisany w artykule arXiv 2503.06669 zaprezentowanym jako finalista nagrody IROS 2025 Best Paper Award oraz publikowanym w IEEE TRO 2026.

Klasyfikacja

Bazowy model robotycznyModel wzrok-język-akcja

Rodzina: GO-1 (Genie Operator-1)

Dostęp i wdrożenie

open_weightsopen_source

LokalnieNa urządzeniuChmura

Kluczowe parametry

🧩 Parametry: 3B

✓ Fine-tuning

📥 Wejście: obraz, tekst, sensory robota, dane stanu robota

Specyfikacja techniczna

Parametry

parametrów

Licencja

CC BY-NC-SA 4.0

Wymagania sprzętowe

Inferencja: ~7 GB VRAM (RTX 4090). Fine-tuning full: ~70 GB (A100 80GB, H100). Fine-tuning Action Expert only: ~24 GB (RTX 4090, A100 40GB). Wymagane: CUDA 12.4, Flash Attention 2.4.2, LeRobot dataset v2.1.

Funkcje:✓ Fine-tuning

Modalności

⬇ Wejście (Input)

imagetextrobot_sensorsrobot_state_data

⬆ Wyjście (Output)

robot_actionsrobot_commandsmotion_trajectories

Wdrożenie i bezpieczeństwo

🤖 Powiązane roboty

🤖AGIBOT G2Robot

💾 Powiązane oprogramowanie

💾Genie Sim 3.0Oprogramowanie

Źródła i powiązane strony

5 źródeł

RepoHuggingFace agibot-world/GO-1-Air (model card)huggingface.co RepoGitHub OpenDriveLab/AgiBot-Worldgithub.com PaperAgiBot World Colosseo (arXiv 2503.06669) — IROS 2025 Best Paper Award Finalist & IEEE TRO 2026arxiv.org BlogOpenGO1 — The Bitter Lessons of Building VLA Systems at Scale (19.09.2025)opendrivelab.com WebAgiBot World — Project Pageagibot-world.com

Przeglądaj powiązane tematy

📁 GO-1 (Genie Operator-1)Wszystkie modele robotics foundation model Wszystkie modele vla model