Motubrain to World Action Model opracowany przez ShengShu Technology i ogłoszony 29 kwietnia 2026 roku. System zastępuje zestaw wyspecjalizowanych modułów robotycznych jednym ujednoliconym modelem, który pełni funkcję "mózgu" dla robotów działających w środowiskach fizycznych – przemysłowych, komercyjnych i domowych.
Architektura systemu opiera się na ujednoliconym modelu multimodalnym (Unified Multimodal Model), który traktuje wideo i akcje jako dwie ciągłe modalności uczone łącznie. Rdzeń stanowi trzystrumieniowy Mixture-of-Transformers (MoT) integrujący modele wideo, języka i akcji. Pojedynczy cykl treningu nadaje systemowi pięć zdolności jednocześnie: sterowanie wizualno-językowo-akcyjne (VLA), modelowanie świata, generowanie wideo, modelowanie odwrotnej dynamiki (IDM) oraz wspólne przewidywanie wideo i akcji.
Motubrain uczy się z szerokiego zakresu danych: nagrań wideo bez etykiet, zapisów zadań bez adnotacji językowych oraz danych z robotów różnych typów. Własny framework latentnych akcji wyodrębnia fizyczny ruch bezpośrednio z wideo na dużą skalę – w tym nagrań ludzkich, danych symulacyjnych i trajektorii z wielu robotów – bez konieczności etykietowania danych. System obsługuje sekwencje zadań obejmujące do 10 atomowych akcji i jest zaprojektowany do przenoszenia umiejętności między różnymi typami ciał robotycznych (cross-embodiment).
Na dzień ogłoszenia system zajął pierwsze miejsce w dwóch wiodących testach porównawczych dla robotów: RoboTwin 2.0 (wynik 96,0 średnio przy 50 zadaniach) oraz WorldArena (wynik EWM 63,77). ShengShu Technology nawiązało partnerstwa z firmami Astribot, SimpleAI i Anyverse Dynamics w celu rozwijania ekosystemu systemu. Producent wskazuje, że Motubrain jest już używany przez kilka firm robotycznych w aktywnych programach treningowych.