MindOn Mind-0: jeden model AI dla heterogenicznej floty robotów

Chiński startup MindOne Robotics pokazał 18 czerwca 2026 demo logistyczne, w którym dwa humanoidy Unitree G1 i dwa stacjonarne ramiona dwuosiowe współpracują w jednym przepływie pracy — wszystkie sterowane przez jeden model AI wytrenowany wyłącznie na danych ludzkich, bez ani jednego zestawu danych zebranego przez robota.

Najważniejsze w skrócie

Jeden model AI (Mind-0) steruje jednocześnie humanoidami i stacjonarnymi ramionami o różnej kinematyce
System trenowany wyłącznie na danych ludzkich — bez teleoperacji ani robot-collected data
Architektura: warstwa wysokopoziomowa (rozumowanie) + warstwa niskopoziomowa (sterowanie ciałem)
Model kompensacji sim-to-real osiąga dokładność poniżej 1 cm na platformie Unitree G1
MindOne Robotics — zarejestrowana w Shenzhen w maju 2025, demo wirusowe z G1 w listopadzie 2025

Heterogeniczna flota zamiast jednego robota

Większość firm w sektorze robotyki ściga się po jedną platformę zdolną do wszystkiego. MindOne Robotics przyjęło inne założenie: w rzeczywistych środowiskach przemysłowych zawsze będzie mix sprzętu o różnych kompromisach.

Humanoidy poruszają się swobodnie w infrastrukturze zaprojektowanej dla ludzi — wchodzą na wózki widłowe, otwierają drzwi, zbierają produkty z półek. Stacjonarne ramiona dwuosiowe są z kolei szybsze, powtarzalne i tańsze w eksploatacji przy ustrukturyzowanych zadaniach: sortowaniu, pakowaniu, taśmociągach.

W prezentowanym demo G1 odbierały produkty z regałów i transportowały je do stacji roboczych. Tam przejmowały stacjonarne ramiona: sortowały, pakowały i uszczelniały kartony. Cały przepływ — od półki do gotowej paczki — bez interwencji człowieka.

Dlaczego dane ludzkie, nie teleoperacja?

Standardową metodą zbierania danych do treningu robotów jest teleoperacja: człowiek "pilotuje" robota, a sprzęt rejestruje ruchy. Problem w tym, że operator musi dostosować się do latencji, zasięgu i ograniczeń kinematycznych konkretnej maszyny. Zapis wychodzi sztywny i nieoptymalny.

MindOne gromadzi dane inaczej: kamerami egocentric, urządzeniami handheld i pełnym mocapem ciała, rejestrując to, jak człowiek wykonuje zadanie naturalnie. Następnie pipeline Cross-Embodiment konwertuje te dane na reprezentacje wykonywalne przez różne roboty.

Kluczową rolę gra model Whole-Body Action Foundation, wytrenowany na kilkudziesięciu tysiącach godzin danych z motion capture. Odpowiada za niskopoziomowe śledzenie ruchów przy zachowaniu równowagi i fizycznej wykonalności — dokładność końcówki ramienia poniżej 3 cm.

Drugie wyzwanie to przepaść sim-to-real: modele działające doskonale w symulacji zawodzą na fizycznym sprzęcie. MindOne stosuje lekki model kompensacyjny, trenowany na niewielkim zestawie danych zebranych na fizycznym sprzęcie. Na platformie Unitree G1 — słynącej z ograniczonej precyzji ramion — ten model sprowadza błąd manipulacji poniżej 1 cm.

Jak działa Mind-0 pod maską

Architektura składa się z czterech składników, które razem tworzą pomost między zachowaniami ludzkimi a egzekucją robota.

Pipeline Cross-Embodiment tłumaczy demonstracje człowieka na przestrzeń działań różnych robotów. Model Foundation Whole-Body zapewnia niskopoziomowe śledzenie ruchu. Model Execution Compensation koryguje błędy dynamiki w czasie rzeczywistym. Hierarchical Coordination Reasoning rozwiązuje problem latencji: dane ludzkie są wolne od opóźnień, fizyczny robot nie — framework wysokopoziomowy monitoruje feedback niskopoziomowy i adaptacyjnie decyduje, kiedy i jak wywoływać konkretne umiejętności.

To ostatnie rozwiązanie jest technicznie istotne. Bez synchronizacji cross-level dochodzi do desynchronizacji: model wydaje polecenia, zanim ramię dojdzie do pozycji, i cały proces się sypie. Zamiast tworzyć oddzielne modele per robot, MindOne zbudowało jedną warstwę inteligencji zdolną do działania na dowolnym korpusie.

Kontekst branżowy

MindOne Robotics nie jest jedyną firmą badającą cross-embodiment learning. Wcześniej podobne podejście proponowały Google DeepMind (RT-X), Berkeley (Open X-Embodiment), czy Pi-zero od Physical Intelligence. Wszystkie korzystały jednak z zestawów danych zebranych przez roboty, a nie wyłącznie z danych ludzkich.

Koncepcja human-only training pipeline w środowisku produkcyjnym jest stosunkowo nowa. Jeśli podejście MindOne sprawdzi się na większej skali, może obniżyć koszty przygotowania nowych wdrożeń robotycznych — nie trzeba będzie miesiącami zbierać danych z nowego sprzętu przed każdym projektem.

Dlaczego to ważne?

Przez lata robotyka przemysłowa działała według schematu: jedna linia produkcyjna, jeden typ robota, setki godzin programowania i danych teleoperacyjnych. Cross-embodiment learning z danymi ludzkimi odwraca tę logikę.

Jeśli jeden model może działać na różnych platformach bez rebootu zbierania danych, czas wdrożenia nowych robotów skraca się do minimum. Dla logistyki e-commerce, gdzie layout magazynów zmienia się co kwartał, albo dla produkcji z ciągłą rotacją produktów — to zasadnicza zmiana operacyjna.

Osobną wartością jest niezależność od teleoperacji jako jedynego kanału pozyskiwania danych. Teleoperacja skaluje się liniowo z liczbą pracowników i platform. Dane ludzkie z motion capturu mogą być zbierane w każdym środowisku, przez każdą osobę, bez specjalistycznego sprzętu robotycznego. To inny rząd skali.

Co dalej?

MindOne zapowiada rozszerzenie deploymentu na mobilne ramiona dwuosiowe oraz dodatkowe platformy łączące mobilność i manipulację.
Spółka planuje skalowanie zestawów danych ludzkich oraz poprawę modelu dla zadań długoterminowych — dotychczasowe demo pokazuje sekwencję do ok. 10 kroków.
Otwartym pytaniem pozostaje niezależna weryfikacja wyników: wszystkie liczby (dokładność poniżej 1 cm na G1) pochodzą z własnych pomiarów MindOne — żaden zewnętrzny benchmark nie potwierdził tych wyników.