Dane

Open X-Embodiment

2023AktywnyOpublikowano: 20 czerwca 2026Aktualizacja: 20 czerwca 2026Opublikowany

Otwarty zbiór danych robotycznych i nazwa kolaboracji naukowej (34 laboratoria, 21 instytucji) — pula 1M+ trajektorii z 22 platform robotów, 527 umiejętności i 160 tys. zadań w jednolitym formacie. Punkt odniesienia dla cross-embodiment learning i baza treningowa rodziny modeli RT-X.

Kluczowa innowacja

Pierwszy duży otwarty zbiór danych robotycznych łączący trajektorie z 22 różnych platform — 1M+ epizodów z 60 zbiorów zebranych przez 34 laboratoria — który ustanowił branżowy standard dla cross-embodiment learning i ImageNet-podobną bazę porównawczą w robotyce.

Kategoria

Dane

Poziom abstrakcji

System

Poziom operacji

DaneTreningSterowanie robotem

Zastosowania

Trening cross-embodiment foundation modeli robotycznychPre-training dla VLA przed fine-tuning na danych task-specificBenchmark do porównywania nowych metod robot learningStandard formatu danych w społeczności robotycznej (RLDS)Baza do badań nad pozytywnym transferem skill między platformami

Jak działa

1) 21 instytucji partnerskich + Google DeepMind kontrybuują 60 istniejących zbiorów danych z 22 platform robotycznych (manipulator UR5, FR3, xArm, Sawyer, ramiona Aloha, Google Robot, Stretch i in.). 2) Wszystkie trajektorie konwertowane są do wspólnego formatu RLDS (Reinforcement Learning Datasets) z ujednoliconą reprezentacją akcji (7-wymiarowy wektor: x, y, z, roll, pitch, yaw + gripper). 3) Dla wymiarów nieobsługiwanych przez dany robot wartość ustawiana jest na zero w czasie treningu — pozwala to mieszać dane z 4-DoF i 7-DoF platform. 4) RT-1-X (Transformer dla sterowania) i RT-2-X (55B VLM co-fine-tuned do generowania akcji jako tokenów tekstu) są trenowane na pełnej mieszance. 5) Ewaluacja na in-distribution skills w 6 laboratoriach akademickich pokazuje, że RT-1-X przebija oryginalne modele o ~50% w domenie małych danych, a RT-2-X wykonuje skille emergent.

Rozwiązany problem

Każde laboratorium robotyczne zbierało osobny dataset pod własnego robota, własne zadanie i własne środowisko. Skutek: rozdrobnienie, brak transferu, brak konsolidacji jak w NLP/CV. OXE łączy te zbiory w jeden korpus z ujednoliconym formatem i pokazuje, że jeden model trenowany na takiej mieszance przebija specjalistyczne modele trenowane tylko na danych z jednego robota.

Komponenty

Open X-Embodiment DatasetOtwarty zbiór danych treningowych

Skonsolidowany korpus 1M+ trajektorii rzeczywistych robotów z 22 platform, 527 umiejętności, 160 266 zadań. Powstał przez połączenie 60 zbiorów z 34 laboratoriów. Hostowany jako RLDS na Google Cloud i HuggingFace.

Ujednolicony format akcjiWspólna przestrzeń akcji dla różnych robotów

Reprezentacja akcji w postaci 7-wymiarowego wektora (x, y, z, roll, pitch, yaw + gripper) wyrażonego w układzie chwytaka robota. Wymiary nieobsługiwane przez daną platformę są zerowane podczas treningu, co umożliwia łączenie danych z różnych morfologii.

Oficjalna

Rodzina modeli RT-XDowód koncepcji wartości datasetu

Modele odniesienia trenowane na pełnej mieszance OXE: RT-1-X (efficient Transformer dla sterowania robotem) oraz RT-2-X (55B VLM co-fine-tuned do generowania akcji jako tokenów tekstu). Demonstrują pozytywny transfer i emergent skills.

Oficjalna

Open X-Embodiment CollaborationZarządzanie inicjatywą i jakością danych

Konsorcjum 21 instytucji partnerskich + Google DeepMind, koordynujące kontrybucje datasetów, jednolitość formatu, ewaluację i utrzymanie repozytorium. Open Dataset Enrollment Form pozwala dołączać nowe zbiory.

Implementacja

Implementacje referencyjne

Open X-Embodiment GitHub repository

Python · Google DeepMind

Oficjalna

Open X-Embodiment project page (robotics-transformer-x.github.io)

Open X-Embodiment Collaboration

Oficjalna

Dataset spreadsheet (lista 60 wkładów + cytowania)

Open X-Embodiment Collaboration

Oficjalna

Pułapki implementacyjne

Heterogeniczność formatów źródłowychWysoka

60 oryginalnych datasetów ma różne reprezentacje akcji, kamer, kalibracji i strukturę katalogów. Konsolidacja do RLDS wymagała wielomiesięcznej pracy całego konsorcjum.

Rozwiązanie:Użyj oficjalnych skryptów Google DeepMind do ładowania RLDS — nie próbuj parsować surowych źródeł samodzielnie.

Niezbalansowana reprezentacja platformŚrednia

Część platform (np. Google Robot, Bridge) dominuje liczbą trajektorii. Naiwne mieszanie prowadzi do over-fittingu do najczęstszych embodimentów.

Rozwiązanie:Stosuj dataset weighting (oversampling rzadkich platform) lub curriculum learning — podejście używane w oryginalnym RT-X.

Zero-padding niewspieranych wymiarów akcjiŚrednia

Strategia zerowania niewspieranych wymiarów (np. brak pitch/yaw na niektórych robotach) wprowadza systematyczne błędy gdy model uczy się traktować 'zero' jako prawdziwą wartość akcji.

Rozwiązanie:Stosuj action masking podczas obliczania straty zamiast prostego zero-padding.

Ewolucja

Oryginalny paper · 2023 · arXiv preprint (ICRA 2024 Best Paper) · Open X-Embodiment Collaboration (Google DeepMind + 33 academic labs, 200+ authors, listed alphabetically)

Open X-Embodiment: Robotic Learning Datasets and RT-X Models

Open X-Embodiment Collaboration (Google DeepMind + 33 academic labs, 200+ authors, listed alphabetically)

2022

RT-1 (Robotics Transformer)

Google Robotics publikuje RT-1 — pierwszy duży Transformer dla sterowania robotem trenowany na danych z 13 robotów Google. Pokazuje, że scaling laws z LLM mogą działać w robotyce.

2023

Październik 2023 — publikacja Open X-Embodiment

Punkt przełomowy

Konsorcjum 34 laboratoriów publikuje arXiv 2310.08864 oraz repozytorium github.com/google-deepmind/open_x_embodiment. 60 istniejących zbiorów konsolidowanych w jednolity format RLDS. Dataset i kod udostępnione na otwartej licencji.

Open X-Embodiment: Robotic Learning Datasets and RT-X Models (artykuł)

2024

ICRA 2024 Best Paper Award

Praca Open X-Embodiment otrzymuje nagrodę Best Paper na konferencji ICRA 2024 — jedno z najwyższych wyróżnień w robotyce. Standardyzuje OXE jako branżowy punkt odniesienia.

2024

Adopcja przez Octo, OpenVLA, pi-0

Kolejne otwarte modele VLA — Octo (Berkeley/Stanford/CMU), OpenVLA (Stanford), pi-0 (Physical Intelligence) — wykorzystują OXE jako główny lub uzupełniający zbiór treningowy. OXE de facto staje się ImageNet robotyki.

(koncept)

Źródła

Open X-Embodiment: Robotic Learning Datasets and RT-X Models

Paper

arXiv / Google DeepMind + 33 labs / ICRA 2024

Open X-Embodiment project page

official_website

Open X-Embodiment Collaboration

Scaling up learning across many different robot types — Google DeepMind blog

Blog

Google DeepMind

GitHub — google-deepmind/open_x_embodiment

Repozytorium

GitHub

Open X-Embodiment dataset spreadsheet (60 wkładów)

Dokumentacja

Open X-Embodiment Collaboration