Architektura

WBA-FM

2024AktywnyOpublikowano: 20 czerwca 2026Aktualizacja: 20 czerwca 2026Opublikowany

Niskopoziomowy fundamentalny model AI realizujący wszystkie polecenia ruchowe humanoida w skoordynowany sposób. Zastępuje klasyczny stos kontrolerów (osobno noga, osobno ramię, osobno balans) jedną siecią trenowaną na dużych zbiorach motion capture.

Kluczowa innowacja

Jeden niskopoziomowy model neuronowy steruje wszystkimi stawami humanoida jednocześnie — koordynując ruch całego ciała, lokomocję, równowagę i manipulację — zamiast rozdzielania ich na osobne, ręcznie strojone kontrolery.

Kategoria

Architektura

Poziom abstrakcji

Building block

Poziom operacji

Sterowanie robotemModelInferencja

Zastosowania

Niskopoziomowy kontroler humanoida w architekturach VLANaśladowanie ruchu człowieka (shadowing) w czasie rzeczywistymSkoordynowana manipulacja oburęczna z utrzymaniem balansuLokomocja po trudnym terenie z całego ciałaWykonywanie złożonych ruchów (boks, taniec, parkour) z danych MoCap

Jak działa

1) Przygotowanie zbioru ruchów referencyjnych — typowo motion capture człowieka (AMASS, KIT, własne MoCap). 2) Retargeting ludzkich kości na morfologię robota (rozwiązanie różnic w długości segmentów i zakresie stawów). 3) Trening w symulatorze fizycznym (Isaac Gym, MuJoCo) metodą reinforcement learning z nagrodą za śledzenie pozy referencyjnej, równowagę i wykonalność fizyczną. 4) Wdrożenie na realnym robocie — często z dodatkową, lekką warstwą kompensacji sim-to-real. 5) WBA-FM jest sterowane wysokopoziomową polityką, która wysyła mu cele (poza, trajektoria, kierunek), a nie konkretne wartości momentów.

Rozwiązany problem

Klasyczne sterowanie humanoidem wymaga ręcznie strojonych kontrolerów per część ciała (PD na ramieniu, MPC na nodze, ZMP na balansie). Skalowanie na nowe zadania i nową morfologię jest kosztowne, a koordynacja całego ciała pozostaje krucha. WBA-FM zastępuje ten stos jedną siecią, która uczy się skoordynowanego ruchu z danych.

Komponenty

Encoder obserwacji proprioceptywnychReprezentacja stanu ciała robota

Przetwarza odczyty czujników stawów (pozycje, prędkości, momenty), IMU oraz stan końcówek na ukrytą reprezentację stanu robota.

Oficjalna

Encoder celuWejście intencji z high-level

Koduje cel z poziomu wyższej polityki: pozę referencyjną, trajektorię końcówki, kierunek marszu, prędkość. Zwykle odpowiada za różne reprezentacje celu (keyframes, parametry zadania).

Oficjalna

Polityka motorycznaGenerowanie poleceń ruchu całego ciała

Rdzeń sieci — zwykle transformer lub MLP — generujący skoordynowane polecenia dla wszystkich stawów. Wyjście to momenty lub pozycje docelowe (w zależności od typu sterowania robota).

Krytyk (tylko trening)Sygnał optymalizacji w treningu

Głowica wartości używana podczas treningu reinforcement learning. Estymuje zwrot z obecnego stanu i akcji, prowadzi optymalizację polityki. Nieaktywna na wdrożeniu.

Oficjalna

Implementacja

Implementacje referencyjne

HumanPlus (Humanoid Shadowing Transformer)

Python (PyTorch) · Stanford University (Zipeng Fu et al.)

Oficjalna

HumanPlus project page

Stanford University

Oficjalna

Pułapki implementacyjne

Retargeting człowiek-robotWysoka

Człowiek i robot mają różną liczbę stawów, długości segmentów i zakresy ruchu. Naiwna projekcja MoCap prowadzi do niewykonalnych pozycji.

Rozwiązanie:Inverse kinematics z constraints, retargeting per-frame z filtrowaniem niewykonalnych pozycji, fine-tuning na trajektoriach robota-specyficznych.

Luka sim-to-real w sterowaniuWysoka

Symulacja niedokładnie odwzorowuje tarcie, luzy mechaniczne i opóźnienia komunikacyjne — co prowadzi do niestabilności na realnym robocie.

Rozwiązanie:Domain randomization w treningu, lekki model kompensacji uczony z danych z wdrożenia, system identification.

Overfitting do konkretnego ciała robotaŚrednia

WBA-FM trenowany na jednym humanoidie (np. Unitree H1) słabo przenosi się na inny (np. Tesla Optimus). Limituje generalizację cross-embodiment.

Rozwiązanie:Wprowadzić warunki morfologiczne na wejściu sieci (parametry robota), trenować na wielu morfologiach jednocześnie.

Ewolucja

Oryginalny paper · 2024 · CoRL 2024 · Zipeng Fu

HumanPlus: Humanoid Shadowing and Imitation from Humans

Zipeng Fu, Qingqing Zhao, et al. (Stanford University)

2004

Whole-Body Control (klasyczne)

Oussama Khatib formalizuje operational-space whole-body control: ręcznie strojone kontrolery sterujące wieloma celami priorytyzowanymi (balans + ruch ramieniem). Podstawa robotyki humanoidalnej przez ~20 lat.

2024

HumanPlus / Humanoid Shadowing Transformer

Punkt przełomowy

Stanford (Fu et al., CoRL 2024) publikuje HST — transformer trenowany RL w symulacji na masowych danych MoCap, sterujący całym ciałem humanoida w czasie rzeczywistym. Przełom: neuronowa polityka zastępuje cały klasyczny stos WBC.

HumanPlus: Humanoid Shadowing and Imitation from Humans (artykuł)

2024

OmniH2O / ExBody / H2O

Seria prac (Stanford, CMU, NVIDIA) rozszerza paradygmat: różne warianty whole-body controllerów wytrenowanych na MoCap, optymalizujące balance, manipulację i lokomocję wspólnie.

2026

MindOn nadaje nazwę Whole-Body Action Foundation Model

MindOn w architekturze Mind-0 wprowadza nazwę Whole-Body Action Foundation Model dla niskopoziomowego modelu trenowanego na dziesiątkach tysięcy godzin MoCap. Deklaruje sub-3 cm dokładność śledzenia końcówki i globalną spójność ruchu. Pełni rolę uniwersalnego interfejsu wykonawczego dla heterogenicznej floty.

(koncept)