1) Zbieranie danych z wielu źródeł: teleoperacja różnych robotów lub demonstracje ludzkie (motion capture, kamery egocentryczne). 2) Konwersja do wspólnej reprezentacji akcji przez pipeline cross-embodiment (np. action tokenization niezależne od kinematyki). 3) Trenowanie wysokopoziomowej polityki na ujednoliconym zbiorze (planowanie zadań, rozumienie sceny). 4) Niskopoziomowy kontroler tłumaczy intencje na ruch fizyczny zgodny z dynamiką danego robota. 5) Opcjonalnie: lekki model kompensacji sim-to-real koryguje błędy specyficzne dla konkretnego sprzętu.
Klasyczne uczenie polityk robotów wymagało zbierania osobnego zbioru danych i trenowania osobnego modelu dla każdego ciała robota. To czyniło robotykę niezdolną do skalowania w stylu LLM. Cross-Embodiment Learning rozwiązuje ten problem, dzieląc inteligencję od ucieleśnienia i pozwalając jednemu modelowi sterować wieloma platformami.
Warstwa konwertująca obserwacje i akcje pochodzące z różnych robotów (lub demonstracji ludzkich) na wspólną reprezentację. Może to być normalizacja proprioceptywna, kanoniczna reprezentacja stanu lub action tokenization.
Oficjalna
Model AI (zwykle VLA lub foundation model robotyczny) generujący zachowanie z poziomu zadania — co zrobić, w jakiej kolejności, gdzie skierować uwagę. Operuje na embodiment-agnostic akcjach.
Komponent embodiment-specific — tłumaczy abstrakcyjne intencje na konkretne polecenia silników, momenty, trajektorie i sygnały regulacyjne respektujące dynamikę i ograniczenia danego robota.
Oficjalna
Opcjonalna, lekka warstwa korygująca błędy śledzenia i niedopasowanie dynamiki między symulacją a rzeczywistym sprzętem. Trenowana na niewielkim zbiorze danych z prawdziwych wdrożeń.
Oficjalna
Przestrzeń akcji jednego robota może być nieosiągalna dla innego (zasięg, liczba stopni swobody). Bezpośrednia imitacja prowadzi do błędów wykonania.
Dane ludzkie są bez opóźnień, dane robota mają je realne. Bezpośrednie naśladowanie prowadzi do desynchronizacji.
Polityka trenowana w symulacji często zawodzi na prawdziwym robocie z powodu niedopasowania dynamiki, tarcia i opóźnień.
Google Robotics publikuje RT-1 — pierwszy duży transformer trenowany na danych z 13 robotów. Pokazuje, że można skalować robot policy jak LLM.
Konsorcjum 34 instytucji publikuje zbiór 1M+ trajektorii z 22 typów robotów. RT-X pokazuje pozytywny transfer skill cross-embodiment.
Startup Physical Intelligence (PI) wydaje pi-0 — generalistyczny model VLA trenowany cross-embodiment na 8 platformach.
MindOn pokazuje, że można trenować cross-embodiment policy wyłącznie z danych ludzko-centrycznych (whole-body motion capture, kamery egocentryczne), bez teleoperacji robotów. Demo: jeden model sterujący jednocześnie humanoidem Unitree G1 i stacjonarnym ramieniem dwuręcznym.
Wysokopoziomowa polityka jest dense, ale wybór niskopoziomowego kontrolera zależy od ucieleśnienia (conditional). Cała architektura skaluje się jak mixture w sensie rozproszenia na różne ciała.
Trenowanie wysokopoziomowej polityki na wielkoskalowych zbiorach motion-capture i wideo wymaga GPU klasy data center.
Sam paradygmat jest agnostyczny względem hardware robota — działa na humanoidach, ramionach dwuręcznych, mobilnych manipulatorach.