RLDX-1: fundacyjny model AI dla rąk robotów z pamięcią i czuciem siły

RLWRLD, startup z Seulu, opublikował 11 maja 2026 roku model RLDX-1 — fundacyjny model AI zaprojektowany od podstaw dla dexterous hands, czyli rąk robotów o wysokiej liczbie stopni swobody. W odróżnieniu od dominujących modeli VLA (Vision-Language-Action), RLDX-1 integruje czucie siły, przetwarzanie ruchu i pamięć długoterminową jako natywne strumienie danych, a nie późne dodatki. Pierwsze wyniki benchmarkowe wskazują, że na zadaniach wymagających fizycznych sygnałów i historii kontekstu model osiąga skuteczność bliską 90% — wobec poniżej 30% dla GR00T N1.6 i π₀.₅.

Najważniejsze w skrócie

RLDX-1 to model 8,1 mld parametrów dostępny w trzech checkpointach: RLDX-1-PT, RLDX-1-MT-ALLEX i RLDX-1-MT-DROID
Architektura Multi-Stream Action Transformer (MSAT) przetwarza obraz, siłę i ruch w oddzielnych strumieniach, łącząc je dopiero na etapie dekodowania akcji
Na benchmarku OpenArm (versatile intelligence) RLDX-1 przewyższa GR00T N1.6 i π₀.₅ w generalizacji na nowe środowiska
Na humanoidzie ALLEX przy zadaniach wymagających Motion/Physics Module: RLDX-1 ok. 90% vs. baseline poniżej 30%
Syntetyczny pipeline danych zwiększa skalę danych ok. 5-krotnie i podnosi skuteczność o 9,2% na benchmarku GR-1 Tabletop

Czego brakowało dotychczasowym modelom VLA

Większość istniejących modeli VLA traktuje siłę, dotyk i historię kontekstu jako opcjonalne rozszerzenia. Standardowy transformer przetwarza wszystkie modalności w jednym strumieniu — co oznacza, że modalność dominująca w gradiencie pochłania całą pojemność modelu, a pozostałe stają się dekoracyjne. Roboty wyposażone w takie modele potrafią chwytać obiekty w kontrolowanych warunkach, lecz zawodzą przy zadaniach wymagających wyczucia zmieniającego się ciężaru, śledzenia poruszających się obiektów czy wieloetapowego planowania.

RLWRLD skategoryzował te luki w postaci pięciu "reżimów zręczności" (dexterity regimes): różnorodność chwytów (grasp diversity), precyzja przestrzenna (spatial precision), precyzja czasowa (temporal precision), precyzja kontaktowa (contact precision) i świadomość kontekstu (context awareness). Każdy z nich odpowiada konkretnemu typowi awarii robotów przemysłowych — np. brak kompensacji dla konwejera (temporal precision) albo brak detekcji momentu kontaktu z obiektem (contact precision).

Architektura MSAT — cztery strumienie w jednym modelu

Odpowiedzią techniczną jest Multi-Stream Action Transformer (MSAT). Każda modalność — obraz wideo, sygnały siły/torque, ruch — posiada dedykowany strumień przetwarzania. Wczesne warstwy zachowują strumienie równolegle, późniejsze łączą je przez joint self-attention dopiero przed dekodowaniem akcji. Nie są one wymuszane do wspólnej reprezentacji na wczesnym etapie.

Motion Module kompresuje wieloklatkowe obserwacje wideo do tokenów ruchu, modelując prędkość i trajektorie obiektów. Efekt: +37,5 punktu procentowego nad GR00T N1.6 i π₀.₅ na zadaniu pick-and-place z ruchomym konwejerem. Physics Module integruje torque i sygnały dotykowe jako osobne strumienie oraz przewiduje przyszłe stany kontaktu. Kluczowe zastosowania to estymacja zmieniającego się ciężaru (np. nalewanie kawy) i wykrywanie momentu kontaktu. Gdy sensory są niedostępne, strumień fizyczny wyłącza się automatycznie (graceful degradation), a model pracuje w trybie vision-only. Memory Module przechowuje 64-tokenowe reprezentacje w buforze FIFO, umożliwiając śledzenie postępu wieloetapowych zadań. Ten sam mechanizm kompresji, który przyspiesza inferencję o 35% (z 16,3 do 22,1 Hz), służy równocześnie jako pamięć długoterminowa. VLM bazowy to Qwen3-VL 8B, dostrójony na robot-trajectory VQA. Stosując imitation learning jako bazę, post-training z DAgger i Progress-Aware RL pozwala modelowi finalnemu wykonywać zadania ok. 3-krotnie szybciej.

Dane syntetyczne i nauka od ludzkich rąk

Teleoperation dla pięciopalczastych rąk jest z natury ograniczona — ludzkie ruchy są zbyt szybkie i precyzyjne, by standardowe kontrolery je uchwycić. RLWRLD rozwiązuje ten problem dwutorowo. Pipeline syntetyczny wykorzystuje video generation models (m.in. Cosmos-Predict2) do generowania nowych trajektorii na podstawie małego zestawu demonstracji. Inverse dynamics model anotuje wygenerowane wideo akcjami, a filtr jakości odrzuca dane niespójne fizycznie. Wynik: ok. 5-krotne zwiększenie skali danych, +9,2% na GR-1 Tabletop. Pipeline "ludzkich rąk" (Human Data) rejestruje gołą ludzką dłoń bez urządzeń teleoperation, następnie retargetuje ruchy na rękę robota za pomocą 3D Gaussian Splatting i niestandardowego frameworku. Tempo: ponad 200 demonstracji na godzinę.

Trzy etapy treningu i post-training z RL

RLDX-1 trenowany jest w trzech etapach. Pre-training na danych wieloplatformowych (jednoramienny, dwuramienny, humanoid) z przypadkowym pomijaniem tagów embodiment. Mid-training dodaje moduły Memory i Physics dla docelowych platform (ALLEX, DROID), częściowo reużywając dane pre-trainingu. Post-training łączy dwa mechanizmy: DAgger, który iteracyjnie zbiera dane z korekt w dystrybucji awarii, oraz Progress-Aware RL — osobny VLM szacujący postęp zadania, dostarczający gęstą nagrodę RL bez ręcznie projektowanych celów. Polityka końcowa wykonuje zadania ok. 3-krotnie szybciej niż po samym imitation learning.

Dlaczego to ważne?

RLDX-1 nie jest kolejnym modelem VLA z lepszymi wynikami na standardowych benchmarkach. Jest to pierwsza publicznie opisana architektura, która jednocześnie adresuje cztery odrębne typy awarii dexterous manipulation: brak przetwarzania ruchu, brak fizycznych sygnałów, brak pamięci kontekstu i brak efektywnej kompresji inferencji. Dotychczasowe modele, takie jak GR00T N1.6 czy π₀, albo ignorowały te modalności, albo dokładały je jako warstwy ad hoc. Dla rynku robotyki przemysłowej kluczowe jest to, że RLDX-1 jest oceniany na platformach komercyjnych (ALLEX humanoid, Franka Research 3) — nie tylko w symulacji. Wyniki 90% vs. poniżej 30% przy zadaniach z Module Physics wskazują na realną lukę możliwości, nie tylko benchmarkową. Jeśli wyniki te potwierdzą się w szerszych wdrożeniach, RLDX-1 może stać się punktem odniesienia dla architektury dexterous AI — podobnie jak GR00T ustalił standard dla mobilności humanoidów. Jest to zarazem nowy rodzaj foundation model dedykowanego embodied AI — nie do przetwarzania języka, lecz do fizycznej interakcji z rzeczywistością.

Co dalej?

RLWRLD zapowiedział trzy kierunki: długoterminowe horyzonty (interakcje trwające godziny), zero-shot generalization dla pretrenowanej polityki oraz rozszerzenie w kierunku world model (przewidywanie przyszłych obserwacji wizualnych warunkowane językiem i akcjami)
Checkpointy RLDX-1-PT, RLDX-1-MT-ALLEX i RLDX-1-MT-DROID dostępne są na Hugging Face — data udostępnienia publicznej bety dla zewnętrznych integratorów nie została podana
Benchmark DexBench opublikowany przez RLWRLD na dexbench.org może stać się branżowym standardem oceny dexterous manipulation, jeśli zostanie zaadoptowany przez innych producentów platform