Robocikowo>ROBOCIKOWO
GO-1 Air
GO-1 Air to lżejsza wersja foundation modelu Vision-Language-Action GO-1 od AgiBot/OpenDriveLab — bez Latent Plannera. 3B parametrów, oparta na InternVL 2.5-2B, pretrenowana na dataset AgiBot World Beta. CC BY-NC-SA 4.0.
✓ AktywnyBazowy model robotycznyModel wzrok-język-akcja📁 GO-1 (Genie Operator-1)
Parametry
3B
parametrów
Data premiery
19 września 2025
Dostęp:open_weightsopen_sourceWdrożenie:💻 Lokalnie📱 Na urządzeniu☁ Cloud

Przegląd

GO-1 Air to wersja foundation modelu Vision-Language-Action GO-1 (Genie Operator-1) bez komponentu Latent Planner, otwartoźródłowo udostępniona 19 września 2025 r. przez zespół AgiBot-World (OpenDriveLab + AgiBot). W przeciwieństwie do pełnego GO-1, GO-1 Air został zaprojektowany jako wariant high-performance i lightweight — z mniejszym rozmiarem (3B parametrów) i szybszą inferencją kosztem rezygnacji z warstwy planowania utajonego.

Architektura

GO-1 Air bazuje na Vision-Language Model InternVL 2.5-2B (OpenGVLab) i dodaje warstwę Action Expert do generowania trajektorii sterowania robotem. Akcje są predykowane w absolutnej przestrzeni stawowej (absolute joint space) z chunk size 30 (dopasowane do częstotliwości 30 Hz datasetu AgiBot World). Model nie zawiera komponentu Latent Planner obecnego w pełnym GO-1, który przewiduje utajone plany działania na wyższym poziomie abstrakcji.

Trening i dane

Model pretrenowano na zbiorze AgiBot World Beta (~1 003 672 trajektorii, ~43,8 TB) zawierającym dane z humanoida AgiBot G1 i pokrywającym 100+ scenariuszy z 5 docelowych domen (retail, przemysł, gastronomia, dom, biuro). Wbrew intuicji branżowej pretrening na pojedynczym embodimencie (AgiBot G1) zapewnia lepszą zdolność cross-embodiment transfer niż pretrening multi-robot — model po fine-tuningu z <200 demonstracjami przenosi się na AgileX Cobot Magic (Aloha), Dual Franka (LIBERO) i RoboTwin.

Wymagania sprzętowe

Inferencja: ~7 GB GPU memory (działa na pojedynczym RTX 4090). Fine-tuning pełny (wszystkie wagi): ~70 GB przy batch size 16 (wymaga A100 80 GB lub H100). Fine-tuning ograniczony do Action Expert: ~24 GB przy batch size 16 (RTX 4090, A100 40 GB). Zalecane CUDA 12.4, Flash Attention 2.4.2 oraz framework LeRobot dataset v2.1 (commit 2b71789).

Otwarcie i dostępność

GO-1 Air jest publicznie dostępny na HuggingFace pod adresem agibot-world/GO-1-Air na licencji CC BY-NC-SA 4.0 (niekomercyjna). Czeckpoint zapisany w formacie Safetensors, BF16. Loader: transformers.AutoModel z trust_remote_code=True. Model został opisany w artykule arXiv 2503.06669 zaprezentowanym jako finalista nagrody IROS 2025 Best Paper Award oraz publikowanym w IEEE TRO 2026.

Klasyfikacja
Bazowy model robotycznyModel wzrok-język-akcja
Dostęp i wdrożenie
open_weightsopen_source
LokalnieNa urządzeniuChmura
Kluczowe parametry
🧩 Parametry: 3B
✓ Fine-tuning
📥 Wejście: obraz, tekst, sensory robota, dane stanu robota

Specyfikacja techniczna

Parametry
3B
parametrów
Licencja
CC BY-NC-SA 4.0
Wymagania sprzętowe
Inferencja: ~7 GB VRAM (RTX 4090). Fine-tuning full: ~70 GB (A100 80GB, H100). Fine-tuning Action Expert only: ~24 GB (RTX 4090, A100 40GB). Wymagane: CUDA 12.4, Flash Attention 2.4.2, LeRobot dataset v2.1.
Funkcje:Fine-tuning
Modalności
⬇ Wejście (Input)
imagetextrobot_sensorsrobot_state_data
⬆ Wyjście (Output)
robot_actionsrobot_commandsmotion_trajectories

Wdrożenie i bezpieczeństwo

🤖 Powiązane roboty
💾 Powiązane oprogramowanie