Figure 03 gotowy do pracy. Humanoid z systemem Helix 02 wykonuje zadania domowe w pełni autonomicznie

Firma Figure AI zaprezentowała trzecią generację swojego dwunożnego robota, która ma stanowić pomost pomiędzy automatyzacją przemysłową a asystentami wspierającymi codzienne życie. Model Figure 03, zarządzany przez zaktualizowany system sztucznej inteligencji, potrafi realizować złożone prace w czasie rzeczywistym i bez zewnętrznego nadzoru. To wyraźny sygnał, że branża robotyki konsekwentnie zmierza w kierunku rozwiązań zdolnych do działania w nieustrukturyzowanych, zmiennych środowiskach.

Najważniejsze w skrócie

Maszyna operuje na bazie autorskiej sieci neuronowej Helix 02, która przetwarza jednocześnie dane wizyjne, dotykowe oraz komendy językowe.
Zredukowano masę całkowitą konstrukcji o 9%, zastępując twarde elementy obudowy materiałami tekstylnymi i pianką amortyzującą.
Zaimplementowano czujniki dotykowe w dłoniach, które rejestrują nacisk od 3 gramów, co pozwala na bezpieczną manipulację kruchymi obiektami.
Uruchomiono nowy zakład produkcyjny BotQ, docelowo zaprojektowany do montażu 100 tysięcy jednostek rocznie przy wykorzystaniu odlewów ciśnieniowych.
Pełną autonomię zaprezentowanych działań maszyny potwierdził zarząd firmy, kładąc kres spekulacjom o wykorzystaniu teleoperacji w materiałach demonstracyjnych.

Architektura sztucznej inteligencji i weryfikacja autonomii

Kluczowym elementem wyróżniającym nową platformę jest przejście na architekturę oprogramowania typu end-to-end. System odpowiedzialny za sterowanie maszyną opiera się na pojedynczej sieci neuronowej. W klasycznym podejściu do robotyki proces ten dzielił się na odrębne moduły: system wizyjny analizował obraz, algorytm planowania wyznaczał ścieżkę, a kontroler ruchu wysyłał sygnały do siłowników. Zintegrowane rozwiązanie wdrożone w najnowszym modelu pobiera bezpośrednio obraz z kamer, dane z czujników oraz informacje o ułożeniu ciała, a na ich podstawie w czasie rzeczywistym generuje komendy dla wszystkich przegubów.

Zdolności maszyny spotkały się z weryfikacją środowiska technologicznego po publikacji materiałów wideo w serwisie X, na których robot samodzielnie układa przedmioty w salonie, sortuje naczynia oraz korzysta z pilota do telewizora. W odpowiedzi na bezpośrednie pytanie, które zadał Elon Musk, założyciel Figure AI, Brett Adcock, oficjalnie potwierdził, że zaprezentowane zadania zostały wykonane całkowicie autonomicznie. Co więcej, wideo odtwarzano w czasie rzeczywistym (prędkość 1x), bez jakiegokolwiek udziału zdalnego operatora. Zastosowanie dużych modeli językowych, czyli LLM, pozwala systemowi na bieżąco interpretować polecenia głosowe i płynnie dostosowywać zachowanie do dynamicznie zmieniającego się otoczenia.

Ewolucja sprzętowa z myślą o bezpieczeństwie i precyzji

Aby maszyna mogła bezpiecznie funkcjonować w środowisku domowym, producent musiał zrewidować jej architekturę sprzętową. Urządzenie, mierzące około 167 centymetrów wzrostu, charakteryzuje się masą zredukowaną o 9% względem poprzedniej generacji. Surowy, metalowy egzoszkielet zastąpiono panelami pokrytymi zmywalną siatką tekstylną oraz warstwami pianki amortyzującej. Zmiana ta ma minimalizować ryzyko urazów w przypadku nieprzewidzianego kontaktu z ludźmi lub uderzenia w meble.

Największą modyfikację przeszły jednak manipulatory. Dłonie robota stały się bardziej miękkie i elastyczne. Na opuszkach palców zainstalowano matryce czujników o wysokiej czułości, które są w stanie odnotować nacisk odpowiadający ciężarowi standardowego spinacza biurowego (około 3 gramów). Taki poziom precyzji jest niezbędny, aby algorytmy mogły w ułamku sekundy korygować siłę chwytu, zapobiegając wyślizgnięciu się obiektu lub jego zgnieceniu — od szklanek po elastyczne opakowania z plastiku. Ponadto w obu dłoniach umieszczono kamery bliskiego zasięgu. Rozwiązują one powszechny problem okluzji wizyjnej; gdy maszyna sięga w głąb szafki lub za przeszkodę, jej główne sensory w głowie tracą pole widzenia. Kamery w dłoniach zapewniają nieprzerwany dopływ danych do sieci neuronowej.

Główny system optyczny również został przebudowany. Kamery przetwarzają obecnie dwukrotnie więcej klatek na sekundę, poszerzając pole widzenia o 60%. Według inżynierów firmy pozwoliło to obniżyć opóźnienia w reakcji układu o 25%, co przekłada się na znacznie płynniejszą nawigację w zatłoczonych przestrzeniach magazynowych lub wąskich korytarzach domowych.

Komunikacja, zasilanie i praca w flocie

Z punktu widzenia wdrożeń przemysłowych, krytyczne znaczenie mają protokoły komunikacyjne oraz zarządzanie energią. Zmodernizowane siłowniki maszyny poruszają się obecnie dwa razy szybciej i generują wyższy moment obrotowy, co pozwala robotowi dorównać prędkością człowiekowi przy powtarzalnych zadaniach typu pick-and-place, takich jak sortowanie metalowych części czy pakowanie zamówień e-commerce.

Do wymiany informacji pomiędzy jednostkami zastosowano szybką łączność bezprzewodową w paśmie fal milimetrowych (mmWave), oferującą przepustowość do 10 Gbps. Taka infrastruktura sieciowa umożliwia tzw. uczenie floty — wiedza i schematy zachowań nabyte przez jednego robota mogą być błyskawicznie replikowane do pozostałych jednostek pracujących w tym samym zakładzie. Usprawniono również moduły audio; nowe głośniki są dwukrotnie większe i emitują dźwięk niemal czterokrotnie głośniejszy, a mikrofony przeniesiono w miejsca mniej podatne na zakłócenia mechaniczne, co eliminuje metaliczny pogłos typowy dla starszych asystentów głosowych.

Kwestię zasilania rozwiązano poprzez integrację cewek indukcyjnych w stopach robota. Zamiast precyzyjnego dokowania w portach fizycznych, maszyna po prostu wchodzi na dedykowaną matę ładującą. Przesył energii odbywa się z mocą do 2 kW, co pozwala na pełne naładowanie akumulatorów wystarczających na około pięć godzin ciągłej operacji.

Od prototypów do masowej produkcji

Przejście z fazy inżynieryjnych prototypów do masowej komercjalizacji wymagało radykalnej zmiany procesów produkcyjnych. Większość dotychczasowych zaawansowanych humanoidów na rynku powstawała przy użyciu powolnej i kosztownej obróbki skrawaniem (CNC). Figure AI poinformowało o przeprojektowaniu linii montażowej z naciskiem na odlewanie ciśnieniowe metali oraz formowanie wtryskowe tworzyw sztucznych. To standardy znane z branży motoryzacyjnej, które drastycznie redukują czas i koszty wytworzenia pojedynczego elementu.

W tym celu firma uruchomiła nowy zakład produkcyjny o nazwie BotQ. Zgodnie z oficjalnymi założeniami, obecna przepustowość fabryki wynosi 12 000 jednostek rocznie, przy czym plany skalowania przewidują osiągnięcie poziomu 100 000 sztuk w ciągu najbliższych czterech lat.

Warto tu nakreślić rynkowy kontekst. Roboty o podobnym zastosowaniu ogólnym różnią się podejściem inżynieryjnym. Przykładowo, konkurencyjny Unitree G1 projektowany jest głównie pod kątem zwinności i niskiej ceny wejścia dla środowisk badawczych, opierając się na hybrydowych modelach sterowania. Podejście Figure faworyzuje pełną integrację sprzętu z zaawansowaną logiką modeli wielomodalnych, celując w realizację precyzyjnych zadań manipulacyjnych w środowiskach nieustrukturyzowanych, kosztem wyższego stopnia skomplikowania samego układu nerwowego robota.

Dlaczego to ważne?

Wdrożenie przez Figure AI modelu opartego na architekturze end-to-end można odczytywać jako wyraźny sygnał zmiany paradygmatu w robotyce. Eliminacja sztywno zakodowanych modułów sterujących na rzecz jednej, wielomodalnej sieci neuronowej sprawia, że hardware staje się jedynie przekaźnikiem dla coraz potężniejszego software’u. Takie rozwiązanie ułatwia uczenie maszyn w oparciu o naturalne obserwacje zachowań ludzkich, co w dłuższej perspektywie może radykalnie obniżyć koszty programowania robotów dla nowych sektorów gospodarki.

Trzeba jednak zachować zdrowy sceptycyzm wobec huraoptymizmu towarzyszącego prezentacjom. O ile praca w sterylnym i przewidywalnym środowisku demonstracyjnym (takim jak zaaranżowany salon) wygląda imponująco, o tyle realne środowisko domowe to zbiór nieprzewidywalnych zmiennych — od rozlanych płynów po nieoczekiwane zachowania zwierząt domowych. Obsługa tzw. przypadków brzegowych (edge cases) pozostaje największym wyzwaniem inżynieryjnym. Ponadto deklarowane liczby produkcyjne na poziomie 100 tysięcy sztuk rocznie wskazują na gigantyczne zapotrzebowanie kapitałowe. Osiągnięcie powtarzalnej jakości przy masowym odlewaniu ciśnieniowym podzespołów o tak niskiej tolerancji błędu będzie sprawdzianem, na którym potknęło się już wiele startupów z obszaru hardtechu. Maszyna zwiastuje jednak kierunek, w którym postępująca standaryzacja zminimalizuje przepaść między środowiskiem testowym a komercyjnym zastosowaniem w domach.

Co dalej?

Ewaluacja wydajności algorytmów na zbiorach danych pochodzących z chaotycznych, rzeczywistych środowisk domowych (testy poza kontrolą producenta).
Możliwe uruchomienie pilotażowych programów leasingowych w sektorze B2B (logistyka, obsługa magazynów), zanim roboty trafią do swobodnej sprzedaży dla konsumentów indywidualnych.
Rozwój łańcuchów dostaw i weryfikacja faktycznych wskaźników uzysku produkcyjnego (yield rate) w nowej fabryce BotQ w kontekście zapowiadanego wolumenu produkcji.

Źródła

Figure AI – Architektura modelu sztucznej inteligencji – https://www.figure.ai/news/helix-02
Robocikowo – Specyfikacja techniczna najnowszego humanoida – https://www.robocikowo.com/humanoidy/figure-03
X (dawniej Twitter) – Odpowiedź CEO firmy na temat pełnej autonomii – https://x.com/adcock_brett
Unchained Robotics – Karta produktu i specyfikacja konkurencyjnego układu – https://unchainedrobotics.de/en/products/humanoid-robots-quadrupedal-robots/unitree-g1
NVIDIA Glossary – Wyjaśnienie definicji i zastosowań dużych modeli – https://www.nvidia.com/en-us/glossary/large-language-models/
X (dawniej Twitter) – Publiczna dyskusja z założycielem firmy – https://x.com/elonmusk