RLWRLD, startup z Seulu, opublikował 11 maja 2026 roku model RLDX-1 — fundacyjny model AI zaprojektowany od podstaw dla dexterous hands, czyli rąk robotów o wysokiej liczbie stopni swobody. W odróżnieniu od dominujących modeli VLA (Vision-Language-Action), RLDX-1 integruje czucie siły, przetwarzanie ruchu i pamięć długoterminową jako natywne strumienie danych, a nie późne dodatki. Pierwsze wyniki benchmarkowe wskazują, że na zadaniach wymagających fizycznych sygnałów i historii kontekstu model osiąga skuteczność bliską 90% — wobec poniżej 30% dla GR00T N1.6 i π₀.₅.
Najważniejsze w skrócie
- RLDX-1 to model 8,1 mld parametrów dostępny w trzech checkpointach: RLDX-1-PT, RLDX-1-MT-ALLEX i RLDX-1-MT-DROID
- Architektura Multi-Stream Action Transformer (MSAT) przetwarza obraz, siłę i ruch w oddzielnych strumieniach, łącząc je dopiero na etapie dekodowania akcji
- Na benchmarku OpenArm (versatile intelligence) RLDX-1 przewyższa GR00T N1.6 i π₀.₅ w generalizacji na nowe środowiska
- Na humanoidzie ALLEX przy zadaniach wymagających Motion/Physics Module: RLDX-1 ok. 90% vs. baseline poniżej 30%
- Syntetyczny pipeline danych zwiększa skalę danych ok. 5-krotnie i podnosi skuteczność o 9,2% na benchmarku GR-1 Tabletop
Czego brakowało dotychczasowym modelom VLA
Większość istniejących modeli VLA traktuje siłę, dotyk i historię kontekstu jako opcjonalne rozszerzenia. Standardowy transformer przetwarza wszystkie modalności w jednym strumieniu — co oznacza, że modalność dominująca w gradiencie pochłania całą pojemność modelu, a pozostałe stają się dekoracyjne. Roboty wyposażone w takie modele potrafią chwytać obiekty w kontrolowanych warunkach, lecz zawodzą przy zadaniach wymagających wyczucia zmieniającego się ciężaru, śledzenia poruszających się obiektów czy wieloetapowego planowania.
RLWRLD skategoryzował te luki w postaci pięciu "reżimów zręczności" (dexterity regimes): różnorodność chwytów (grasp diversity), precyzja przestrzenna (spatial precision), precyzja czasowa (temporal precision), precyzja kontaktowa (contact precision) i świadomość kontekstu (context awareness). Każdy z nich odpowiada konkretnemu typowi awarii robotów przemysłowych — np. brak kompensacji dla konwejera (temporal precision) albo brak detekcji momentu kontaktu z obiektem (contact precision).
Architektura MSAT — cztery strumienie w jednym modelu
Odpowiedzią techniczną jest Multi-Stream Action Transformer (MSAT). Każda modalność — obraz wideo, sygnały siły/torque, ruch — posiada dedykowany strumień przetwarzania. Wczesne warstwy zachowują strumienie równolegle, późniejsze łączą je przez joint self-attention dopiero przed dekodowaniem akcji. Nie są one wymuszane do wspólnej reprezentacji na wczesnym etapie.
Motion Module kompresuje wieloklatkowe obserwacje wideo do tokenów ruchu, modelując prędkość i trajektorie obiektów. Efekt: +37,5 punktu procentowego nad GR00T N1.6 i π₀.₅ na zadaniu pick-and-place z ruchomym konwejerem. Physics Module integruje torque i sygnały dotykowe jako osobne strumienie oraz przewiduje przyszłe stany kontaktu. Kluczowe zastosowania to estymacja zmieniającego się ciężaru (np. nalewanie kawy) i wykrywanie momentu kontaktu. Gdy sensory są niedostępne, strumień fizyczny wyłącza się automatycznie (graceful degradation), a model pracuje w trybie vision-only. Memory Module przechowuje 64-tokenowe reprezentacje w buforze FIFO, umożliwiając śledzenie postępu wieloetapowych zadań. Ten sam mechanizm kompresji, który przyspiesza inferencję o 35% (z 16,3 do 22,1 Hz), służy równocześnie jako pamięć długoterminowa. VLM bazowy to Qwen3-VL 8B, dostrójony na robot-trajectory VQA. Stosując imitation learning jako bazę, post-training z DAgger i Progress-Aware RL pozwala modelowi finalnemu wykonywać zadania ok. 3-krotnie szybciej.
Dane syntetyczne i nauka od ludzkich rąk
Teleoperation dla pięciopalczastych rąk jest z natury ograniczona — ludzkie ruchy są zbyt szybkie i precyzyjne, by standardowe kontrolery je uchwycić. RLWRLD rozwiązuje ten problem dwutorowo. Pipeline syntetyczny wykorzystuje video generation models (m.in. Cosmos-Predict2) do generowania nowych trajektorii na podstawie małego zestawu demonstracji. Inverse dynamics model anotuje wygenerowane wideo akcjami, a filtr jakości odrzuca dane niespójne fizycznie. Wynik: ok. 5-krotne zwiększenie skali danych, +9,2% na GR-1 Tabletop. Pipeline "ludzkich rąk" (Human Data) rejestruje gołą ludzką dłoń bez urządzeń teleoperation, następnie retargetuje ruchy na rękę robota za pomocą 3D Gaussian Splatting i niestandardowego frameworku. Tempo: ponad 200 demonstracji na godzinę.
Trzy etapy treningu i post-training z RL
RLDX-1 trenowany jest w trzech etapach. Pre-training na danych wieloplatformowych (jednoramienny, dwuramienny, humanoid) z przypadkowym pomijaniem tagów embodiment. Mid-training dodaje moduły Memory i Physics dla docelowych platform (ALLEX, DROID), częściowo reużywając dane pre-trainingu. Post-training łączy dwa mechanizmy: DAgger, który iteracyjnie zbiera dane z korekt w dystrybucji awarii, oraz Progress-Aware RL — osobny VLM szacujący postęp zadania, dostarczający gęstą nagrodę RL bez ręcznie projektowanych celów. Polityka końcowa wykonuje zadania ok. 3-krotnie szybciej niż po samym imitation learning.
Dlaczego to ważne?
RLDX-1 nie jest kolejnym modelem VLA z lepszymi wynikami na standardowych benchmarkach. Jest to pierwsza publicznie opisana architektura, która jednocześnie adresuje cztery odrębne typy awarii dexterous manipulation: brak przetwarzania ruchu, brak fizycznych sygnałów, brak pamięci kontekstu i brak efektywnej kompresji inferencji. Dotychczasowe modele, takie jak GR00T N1.6 czy π₀, albo ignorowały te modalności, albo dokładały je jako warstwy ad hoc. Dla rynku robotyki przemysłowej kluczowe jest to, że RLDX-1 jest oceniany na platformach komercyjnych (ALLEX humanoid, Franka Research 3) — nie tylko w symulacji. Wyniki 90% vs. poniżej 30% przy zadaniach z Module Physics wskazują na realną lukę możliwości, nie tylko benchmarkową. Jeśli wyniki te potwierdzą się w szerszych wdrożeniach, RLDX-1 może stać się punktem odniesienia dla architektury dexterous AI — podobnie jak GR00T ustalił standard dla mobilności humanoidów. Jest to zarazem nowy rodzaj foundation model dedykowanego embodied AI — nie do przetwarzania języka, lecz do fizycznej interakcji z rzeczywistością.
Co dalej?
- RLWRLD zapowiedział trzy kierunki: długoterminowe horyzonty (interakcje trwające godziny), zero-shot generalization dla pretrenowanej polityki oraz rozszerzenie w kierunku world model (przewidywanie przyszłych obserwacji wizualnych warunkowane językiem i akcjami)
- Checkpointy RLDX-1-PT, RLDX-1-MT-ALLEX i RLDX-1-MT-DROID dostępne są na Hugging Face — data udostępnienia publicznej bety dla zewnętrznych integratorów nie została podana
- Benchmark DexBench opublikowany przez RLWRLD na dexbench.org może stać się branżowym standardem oceny dexterous manipulation, jeśli zostanie zaadoptowany przez innych producentów platform
Źródła
- The Robot Report — RLWRLD releases RLDX-1, a dexterity-first foundation model for robot hands
- RLWRLD — RLDX-1 official page
- Hugging Face — RLDX-1-PT checkpoint





