Mind-0

Uniwersalny model fundamentalny robotów MindOn — jeden VLA sterujący różnymi platformami (humanoidy, ramiona dwuręczne), trenowany wyłącznie na danych ludzkich.

🔬 Research🔬 Research onlyBazowy model robotycznyModel wzrok-język-akcja

Data premiery

18 czerwca 2026

🏢MindOne RoboticsProducent

Wdrożenie:📱 Na urządzeniu

Przegląd

Mind-0 to fundamentalny model AI dla robotyki ucieleśnionej, zbudowany przez chiński startup MindOne Robotics (MindOn) z Shenzhen. Jest to model klasy VLA (Vision-Language-Action) zaprojektowany jako jeden mózg sterujący równolegle różnymi platformami sprzętowymi — od humanoidów Unitree G1 po stacjonarne ramiona dwuręczne. Kluczowa teza projektu Mind-0 brzmi: zamiast trenować osobny model na każdą platformę z drogich danych teleoperacyjnych, można nauczyć jeden model uniwersalnego rozumienia zadań z danych ludzko-centrycznych (whole-body motion capture, kamery egocentryczne, urządzenia ręczne).

Architektura dwuwarstwowa

Mind-0 separuje inteligencję od ucieleśnienia. Wysokopoziomowa warstwa odpowiada za rozumienie sceny, planowanie zadań i generowanie zachowań. Niskopoziomowy Whole-Body Action Foundation Model — wytrenowany na dziesiątkach tysięcy godzin danych motion capture — tłumaczy intencje na ruch fizyczny zgodny z dynamiką konkretnego robota, osiągając precyzję śledzenia końcówki poniżej 3 cm i utrzymując globalną spójność ruchu oraz równowagę.

Cross-Embodiment Data Pipeline

Pipeline cross-embodiment konwertuje wielkoskalowe demonstracje ludzkie na reprezentacje akcji zrozumiałe dla różnych robotów. Dzięki temu zdolności manipulacyjne człowieka są przenoszone na sprzęt o całkowicie odmiennej kinematyce, dynamice i przestrzeni roboczej.

Real-World Execution Compensation Model

Lukę sim-to-real zamyka lekki model kompensacyjny trenowany na niewielkiej ilości danych z prawdziwych wdrożeń. Koryguje błędy śledzenia, niedopasowanie dynamiki i odchylenia specyficzne dla danego ciała robota — według MindOn pozwala uzyskać dokładność manipulacji poniżej 1 cm na Unitree G1, platformie znanej z ograniczonej precyzji ramion.

Hierarchical Coordination Reasoning

Dane ludzkie są z natury bez opóźnień, podczas gdy roboty cierpią na latencję percepcji i sterowania. Mind-0 rozwiązuje to przez hierarchiczną pętlę rozumowania — wysokopoziomowa polityka stale monitoruje feedback z systemów low-level i adaptacyjnie decyduje, kiedy i jak wywołać konkretne umiejętności, zamiast bezpośrednio naśladować ludzkie demonstracje.

Publiczne demonstracje

Pierwsza wirusowa demonstracja Mind-0 (listopad 2025) pokazała Unitree G1 wykonującego złożone obowiązki domowe autonomicznie, bez przyspieszania i bez teleoperacji. Druga (18 czerwca 2026) zaprezentowała koordynację heterogenicznej floty — dwóch humanoidów Unitree G1 i dwóch stacjonarnych ramion dwuręcznych — w pełnym przepływie logistycznym (pobieranie ze stelaży, transport, sortowanie, pakowanie, klejenie taśmą), gdzie wszystkie cztery roboty były sterowane jednym modelem Mind-0.

Klasyfikacja

Bazowy model robotycznyModel wzrok-język-akcja

Zastosowania

Manipulacja robotyczna Trening polityk robotów

Dostęp i wdrożenie

Na urządzeniu

Wagi: Zamknięte

Kluczowe parametry

📥 Wejście: sensory robota, dane stanu robota, obraz, wideo

Robotyka

Robot manipulationBimanual manipulationDexterous manipulationRobot controlRobot navigationMotion planningScene understandingEmbodied task planning

Specyfikacja techniczna

Licencja

Proprietary (closed)

Wymagania sprzętowe

Wdrażany na komercyjnych humanoidach Unitree G1 oraz stacjonarnych systemach dwuręcznych (architektura embodiment-agnostic).

Modalności

⬇ Wejście (Input)

robot_sensorsrobot_state_dataimagevideo

⬆ Wyjście (Output)

robot_actionsrobot_commandsmotion_trajectoriesmanipulator_control

Możliwości i zastosowania

Natywne możliwości modelu

Transfer międzyucieleśnieniowy

Zdolność jednego modelu do sterowania robotami o różnej budowie (humanoidy, ramiona dwuręczne, platformy mobilne) bez trenowania osobnego modelu na każdą platformę. Inteligencja jest oddzielona od ucieleśnienia, dzięki czemu ta sama polityka działa na sprzęcie o odmiennej kinematyce i dynamice.

Kategoria: robotics

Ugruntowanie wizualno-językowo-akcyjne

Zdolność modelu VLA do łączenia percepcji wizualnej i polecenia językowego z konkretnym działaniem fizycznym robota. Model rozumie scenę i intencję, a następnie generuje sekwencję akcji wykonawczych, zamykając pętlę od obserwacji do ruchu.

Kategoria: robotics

Planowanie

Tworzenie i realizacja planów działania dla złożonych zadań.

Kategoria: planning

Rozumowanie

Zdolność modelu do logicznego wnioskowania i rozwiązywania złożonych problemów.

Kategoria: reasoning

Rozumienie multimodalne

Zdolność modelu do łączenia i interpretowania informacji z więcej niż jednej modalności, np. tekstu i obrazu.

Kategoria: multimodal

Robotyka

Robot manipulationBimanual manipulationDexterous manipulationRobot controlRobot navigationMotion planningScene understandingEmbodied task planning