Trening

Cross-Embodiment Learning

2022AktywnyOpublikowano: 20 czerwca 2026Aktualizacja: 20 czerwca 2026Opublikowany

Paradygmat treningu modeli robotyki polegający na uczeniu jednej polityki działającej na wielu rodzajach ciał robotów. Dane z różnych ucieleśnień (lub z demonstracji ludzkich) trafiają do wspólnego modelu, który generalizuje zachowanie poprzez warstwę pośrednią abstrahującą od konkretnej kinematyki i dynamiki.

Kluczowa innowacja

Jeden model uczy się wykonywać zadania na robotach o różnej budowie fizycznej (humanoidy, ramiona dwuręczne, manipulatory mobilne) zamiast trenowania osobnego modelu na każdą platformę.

Kategoria

Trening

Poziom abstrakcji

Paradygmat

Poziom operacji

TreningSterowanie robotemModel

Zastosowania

Trenowanie jednej polityki działającej na humanoidach i ramionach stacjonarnychLogistyka magazynowa z heterogeniczną flotą robotówSkalowanie zbioru danych przez teleoperację wielu typów robotówUczenie z demonstracji ludzkich (human-centric cross-embodiment)Transfer umiejętności między generacjami sprzętu

Jak działa

1) Zbieranie danych z wielu źródeł: teleoperacja różnych robotów lub demonstracje ludzkie (motion capture, kamery egocentryczne). 2) Konwersja do wspólnej reprezentacji akcji przez pipeline cross-embodiment (np. action tokenization niezależne od kinematyki). 3) Trenowanie wysokopoziomowej polityki na ujednoliconym zbiorze (planowanie zadań, rozumienie sceny). 4) Niskopoziomowy kontroler tłumaczy intencje na ruch fizyczny zgodny z dynamiką danego robota. 5) Opcjonalnie: lekki model kompensacji sim-to-real koryguje błędy specyficzne dla konkretnego sprzętu.

Rozwiązany problem

Klasyczne uczenie polityk robotów wymagało zbierania osobnego zbioru danych i trenowania osobnego modelu dla każdego ciała robota. To czyniło robotykę niezdolną do skalowania w stylu LLM. Cross-Embodiment Learning rozwiązuje ten problem, dzieląc inteligencję od ucieleśnienia i pozwalając jednemu modelowi sterować wieloma platformami.

Komponenty

Cross-Embodiment Data PipelineUjednolicenie danych z heterogenicznych źródeł

Warstwa konwertująca obserwacje i akcje pochodzące z różnych robotów (lub demonstracji ludzkich) na wspólną reprezentację. Może to być normalizacja proprioceptywna, kanoniczna reprezentacja stanu lub action tokenization.

Oficjalna

Wysokopoziomowa politykaRozumienie sceny, planowanie zadania, generowanie intencji

Model AI (zwykle VLA lub foundation model robotyczny) generujący zachowanie z poziomu zadania — co zrobić, w jakiej kolejności, gdzie skierować uwagę. Operuje na embodiment-agnostic akcjach.

Niskopoziomowy kontrolerWykonanie fizyczne, balans, stabilność

Komponent embodiment-specific — tłumaczy abstrakcyjne intencje na konkretne polecenia silników, momenty, trajektorie i sygnały regulacyjne respektujące dynamikę i ograniczenia danego robota.

Oficjalna

Model kompensacji sim-to-realZamknięcie luki sim-to-real

Opcjonalna, lekka warstwa korygująca błędy śledzenia i niedopasowanie dynamiki między symulacją a rzeczywistym sprzętem. Trenowana na niewielkim zbiorze danych z prawdziwych wdrożeń.

Oficjalna

Implementacja

Implementacje referencyjne

Open X-Embodiment / RT-X

Python · Google DeepMind + 33 academic labs

Oficjalna

Octo (Open-source generalist robot policy)

Python (JAX) · UC Berkeley + Stanford + CMU

pi-0

Physical Intelligence

Oficjalna

Pułapki implementacyjne

Różnice kinematyczne między robotamiWysoka

Przestrzeń akcji jednego robota może być nieosiągalna dla innego (zasięg, liczba stopni swobody). Bezpośrednia imitacja prowadzi do błędów wykonania.

Rozwiązanie:Wprowadzić warstwę abstrakcji akcji (np. cele końcówki zamiast pozycji stawów) i dedykowane niskopoziomowe kontrolery per robot.

Opóźnienia percepcji i sterowaniaŚrednia

Dane ludzkie są bez opóźnień, dane robota mają je realne. Bezpośrednie naśladowanie prowadzi do desynchronizacji.

Rozwiązanie:Hierarchiczna pętla rozumowania monitorująca feedback low-level i adaptacyjnie planująca akcje.

Luka sim-to-realWysoka

Polityka trenowana w symulacji często zawodzi na prawdziwym robocie z powodu niedopasowania dynamiki, tarcia i opóźnień.

Rozwiązanie:Lekki model kompensacji trenowany na realnych danych wdrożeniowych korygujący błędy śledzenia.

Ewolucja

Oryginalny paper · 2023 · arXiv preprint (ICRA 2024) · Open X-Embodiment Collaboration (Google DeepMind + 33 academic labs)

Open X-Embodiment: Robotic Learning Datasets and RT-X Models

Open X-Embodiment Collaboration (Google DeepMind + 33 academic labs)

2022

RT-1 (Robotics Transformer)

Google Robotics publikuje RT-1 — pierwszy duży transformer trenowany na danych z 13 robotów. Pokazuje, że można skalować robot policy jak LLM.

2023

Open X-Embodiment + RT-X

Punkt przełomowy

Konsorcjum 34 instytucji publikuje zbiór 1M+ trajektorii z 22 typów robotów. RT-X pokazuje pozytywny transfer skill cross-embodiment.

Open X-Embodiment: Robotic Learning Datasets and RT-X Models (artykuł)

2024

pi-0 (Physical Intelligence)

Startup Physical Intelligence (PI) wydaje pi-0 — generalistyczny model VLA trenowany cross-embodiment na 8 platformach.

2026

Mind-0 (MindOn) — human-centric cross-embodiment

Punkt przełomowy

MindOn pokazuje, że można trenować cross-embodiment policy wyłącznie z danych ludzko-centrycznych (whole-body motion capture, kamery egocentryczne), bez teleoperacji robotów. Demo: jeden model sterujący jednocześnie humanoidem Unitree G1 i stacjonarnym ramieniem dwuręcznym.

(koncept)