Generalist AI przedstawia GEN-1: Czy to koniec ery programowanych robotów?

Startup Generalist AI zaprezentował model GEN-1, który może stanowić przełom w dążeniu do autonomii maszyn. Dzięki wykorzystaniu ogromnych zbiorów danych z interakcji fizycznych, roboty uczą się improwizacji, co pozwala im radzić sobie w nieprzewidywalnych, rzeczywistych warunkach bez sztywnego kodu.

Najważniejsze w skrócie:

Wysoka skuteczność: GEN-1 osiąga 99% sukcesu w zadaniach, w których poprzednie modele radziły sobie na poziomie 64%.
Szybka adaptacja: Model wymaga zaledwie jednej godziny danych specyficznych dla robota, aby opanować nową czynność lub konstrukcję mechaniczną.
Improwizacja fizyczna: System potrafi samodzielnie korygować błędy w czasie rzeczywistym, co nazwano „momentem limeryka” dla robotyki.
Skalowanie danych: Fundamentem sukcesu jest baza ponad 500 000 godzin wysokiej jakości interakcji fizycznych.

Nowa definicja „mistrzostwa” w świecie fizycznym

W robotyce przemysłowej od dekad króluje precyzja, ale jest ona ograniczona do „skryptowanych” środowisk – fabryk, gdzie każdy ruch jest zaplanowany co do milimetra. Startup Generalist AI, ogłaszając premierę modelu GEN-1, przesuwa środek ciężkości w stronę tzw. inteligentnej improwizacji. Według twórców, prawdziwe mistrzostwo maszyny nie polega na bezbłędnym powtarzaniu trajektorii, lecz na kombinacji niezawodności, szybkości i zdolności do reagowania na anomalie.

Model GEN-1 wykazał się zdumiewającą powtarzalnością w testach wytrzymałościowych. Jak podaje oficjalny komunikat firmy, roboty sterowane przez ten system potrafiły złożyć 86 koszulek w ciągu godziny, serwisować odkurzacze automatyczne ponad 200 razy oraz spakować przeszło 1800 klocków bez żadnej interwencji człowieka. Co istotne, system wykonuje te zadania trzykrotnie szybciej niż dotychczasowe rozwiązania typu SOTA (State-of-the-Art).

„Data Hands” – jak pokonano wąskie gardło danych

Największą barierą w rozwoju Physical AI od zawsze był brak danych. W przeciwieństwie do modeli językowych, które uczą się na tekstach z internetu, roboty potrzebują danych o siłach, tarciu i grawitacji. Generalist AI rozwiązało ten problem, omijając tradycyjne, kosztowne sesje teleoperacji.

Zastosowano autorskie rozwiązanie „Data Hands” – niskokosztowe urządzenia ubieralne, które ludzie zakładają na dłonie podczas wykonywania codziennych czynności. Dzięki temu firma w zaledwie kilka miesięcy zwiększyła swoją bazę danych z 270 000 do ponad 500 000 godzin wysokiej jakości interakcji. To podejście stoi w kontrze do strategii, którą przyjmuje np. Physical Intelligence, stawiająca na hybrydę naśladowania i autonomicznego uczenia się przez wzmacnianie w kontrolowanych środowiskach.

Moment „limeryka” i przekroczenie paradoksu Moraveca

Prezes Generalist AI, Pete Florence, porównuje obecny skok technologiczny do momentu, w którym GPT-3 napisał swój pierwszy, oryginalny limeryk. W robotyce takim „momentem limeryka” jest sytuacja, w której maszyna wykonuje czynność, której nigdy wcześniej nie widziała w zbiorze treningowym.

Podczas demonstracji robot GEN-1, napotykając opór przy wkładaniu zabawki do torby, autonomicznie użył drugiego ramienia, by potrząsnąć opakowaniem i zrobić miejsce. To zjawisko określane jest jako zachowanie emergentne. Sugeruje to, że po przekroczeniu progu 7 miliardów parametrów, modele zaczynają internalizować prawa fizyki, zamiast tylko naśladować nagrane ruchy. Pozwala to na skuteczne zmierzenie się z paradoksem Moraveca – teorią mówiącą o tym, że to, co dla ludzi jest proste (motoryka), dla komputerów jest niezwykle trudne obliczeniowo.

Rywalizacja gigantów: Skala vs Architektura

Premiera GEN-1 zbiega się w czasie z ogromnymi inwestycjami w sektorze. Podczas gdy Nvidia promuje projekt GROOT jako uniwersalny system sterowania dla humanoidów, Generalist AI stawia na „brutalną siłę” czystych danych interakcyjnych.

Nie wszyscy są jednak entuzjastami tego podejścia. Krytycy tacy jak Brad Porter, CEO Cobot, sugerują, że próba rozwiązania problemów robotyki wyłącznie poprzez skalowanie danych (tzw. brute-forcing) może być zbyt kosztowna i nieefektywna w porównaniu do doskonalenia samej architektury modeli. Z kolei LeCun, główny naukowiec Meta, od dawna argumentuje, że systemy muszą uczyć się poprzez obserwację świata (tzw. world models), a nie tylko przewidywanie kolejnych „tokenów akcji”.

Cecha	Podejście tradycyjne (Skryptowe)	Model GEN-1 (Generalist)
Programowanie	Ręczne definiowanie ruchów	Uczenie na podstawie danych (End-to-End)
Adaptacja	Wymaga tygodni przeprogramowania	Ok. 1 godzina danych dla nowego zadania
Środowisko	Sterowane, statyczne	Nieustrukturyzowane, zmienne
Reakcja na błąd	Zatrzymanie systemu	Autonomiczna próba korekty (Improwizacja)

Dlaczego to ważne?

Pojawienie się GEN-1 to sygnał, że robotyka użytkowa wchodzi w fazę „post-programistyczną”. Przez dekady barierą wdrożenia robotów w małych firmach lub domach był fakt, że maszyna była bezużyteczna, jeśli napotkała przedmiot przesunięty o kilka centymetrów względem instrukcji. Model Generalist AI pokazuje, że dzięki ogromnej skali danych, AI zaczyna rozumieć „fizyczny rozsądek” – intuicyjne czucie sił i tarcia.

Jeśli teza o „fazie przejścia” przy 7 miliardach parametrów się potwierdzi, możemy spodziewać się zalania rynku robotami, które nie potrzebują inżyniera na miejscu, by nauczyć się obsługi nowej maszyny na linii produkcyjnej. To fundamentalna zmiana modelu ekonomicznego: z zakupu „sprzętu z oprogramowaniem” przechodzimy do zakupu „zdolności do nauki”. Jednocześnie otwiera to debatę nad bezpieczeństwem – emergentne zachowania, choć imponujące, mogą prowadzić do nieprzewidzianych działań robota w kontakcie z ludźmi, co firma sama przyznaje, wskazując na konieczność opracowania metod „wyrównania” (alignment) dla systemów ucieleśnionych.

Co dalej?

Wdrożenia u partnerów: GEN-1 jest już dostępny dla wczesnych partnerów komercyjnych Generalist AI, co pozwoli zweryfikować model w realnych warunkach rynkowych.
Bezpieczeństwo i kontrola: Firma koncentruje się teraz na rozwoju mechanizmów sterowania (steering), aby zapewnić, że improwizacje robotów pozostaną bezpieczne dla otoczenia.
Dalsze skalowanie: Oczekuje się, że kolejna iteracja modelu wykorzysta jeszcze większą moc obliczeniową, prawdopodobnie bazując na infrastrukturze takiej jak NVIDIA H100, aby sprawdzić, czy dalszy wzrost liczby parametrów przyniesie kolejne przełomy w zręczności maszyn.