1) 21 instytucji partnerskich + Google DeepMind kontrybuują 60 istniejących zbiorów danych z 22 platform robotycznych (manipulator UR5, FR3, xArm, Sawyer, ramiona Aloha, Google Robot, Stretch i in.). 2) Wszystkie trajektorie konwertowane są do wspólnego formatu RLDS (Reinforcement Learning Datasets) z ujednoliconą reprezentacją akcji (7-wymiarowy wektor: x, y, z, roll, pitch, yaw + gripper). 3) Dla wymiarów nieobsługiwanych przez dany robot wartość ustawiana jest na zero w czasie treningu — pozwala to mieszać dane z 4-DoF i 7-DoF platform. 4) RT-1-X (Transformer dla sterowania) i RT-2-X (55B VLM co-fine-tuned do generowania akcji jako tokenów tekstu) są trenowane na pełnej mieszance. 5) Ewaluacja na in-distribution skills w 6 laboratoriach akademickich pokazuje, że RT-1-X przebija oryginalne modele o ~50% w domenie małych danych, a RT-2-X wykonuje skille emergent.
Każde laboratorium robotyczne zbierało osobny dataset pod własnego robota, własne zadanie i własne środowisko. Skutek: rozdrobnienie, brak transferu, brak konsolidacji jak w NLP/CV. OXE łączy te zbiory w jeden korpus z ujednoliconym formatem i pokazuje, że jeden model trenowany na takiej mieszance przebija specjalistyczne modele trenowane tylko na danych z jednego robota.
Skonsolidowany korpus 1M+ trajektorii rzeczywistych robotów z 22 platform, 527 umiejętności, 160 266 zadań. Powstał przez połączenie 60 zbiorów z 34 laboratoriów. Hostowany jako RLDS na Google Cloud i HuggingFace.
Reprezentacja akcji w postaci 7-wymiarowego wektora (x, y, z, roll, pitch, yaw + gripper) wyrażonego w układzie chwytaka robota. Wymiary nieobsługiwane przez daną platformę są zerowane podczas treningu, co umożliwia łączenie danych z różnych morfologii.
Oficjalna
Modele odniesienia trenowane na pełnej mieszance OXE: RT-1-X (efficient Transformer dla sterowania robotem) oraz RT-2-X (55B VLM co-fine-tuned do generowania akcji jako tokenów tekstu). Demonstrują pozytywny transfer i emergent skills.
Oficjalna
Konsorcjum 21 instytucji partnerskich + Google DeepMind, koordynujące kontrybucje datasetów, jednolitość formatu, ewaluację i utrzymanie repozytorium. Open Dataset Enrollment Form pozwala dołączać nowe zbiory.
60 oryginalnych datasetów ma różne reprezentacje akcji, kamer, kalibracji i strukturę katalogów. Konsolidacja do RLDS wymagała wielomiesięcznej pracy całego konsorcjum.
Część platform (np. Google Robot, Bridge) dominuje liczbą trajektorii. Naiwne mieszanie prowadzi do over-fittingu do najczęstszych embodimentów.
Strategia zerowania niewspieranych wymiarów (np. brak pitch/yaw na niektórych robotach) wprowadza systematyczne błędy gdy model uczy się traktować 'zero' jako prawdziwą wartość akcji.
Google Robotics publikuje RT-1 — pierwszy duży Transformer dla sterowania robotem trenowany na danych z 13 robotów Google. Pokazuje, że scaling laws z LLM mogą działać w robotyce.
Konsorcjum 34 laboratoriów publikuje arXiv 2310.08864 oraz repozytorium github.com/google-deepmind/open_x_embodiment. 60 istniejących zbiorów konsolidowanych w jednolity format RLDS. Dataset i kod udostępnione na otwartej licencji.
Praca Open X-Embodiment otrzymuje nagrodę Best Paper na konferencji ICRA 2024 — jedno z najwyższych wyróżnień w robotyce. Standardyzuje OXE jako branżowy punkt odniesienia.
Kolejne otwarte modele VLA — Octo (Berkeley/Stanford/CMU), OpenVLA (Stanford), pi-0 (Physical Intelligence) — wykorzystują OXE jako główny lub uzupełniający zbiór treningowy. OXE de facto staje się ImageNet robotyki.
Trening modeli klasy RT-X na 1M+ trajektorii wymaga klastrów GPU klasy data center (TPU v4 lub H100). Dla 55B-parametrowego RT-2-X to setki akceleratorów.
Google DeepMind trenował RT-X na TPU. Codebase i workflow OXE są przygotowane pod TPU/JAX.