RLDX-1

Foundation model RLWRLD do dexterous manipulation; oparty o architekturę Multi-Stream Action Transformer (MSAT) z dedykowanymi strumieniami dla wizji, dotyku, momentów i pamięci.

✓ Aktywny✓ Publiczny dostęp⚖ Open weightsBazowy model robotycznyModel wzrok-język-akcjaModel multimodalny

Parametry

8.1B (mid-trained)

parametrów

Data premiery

7 maja 2026

🏢RLWRLDProducent

Dostęp:DownloadWdrożenie:💻 Lokalnie📱 Na urządzeniu

Przegląd

RLDX-1 to dexterity-first foundation model dla rąk robotycznych opracowany przez RLWRLD i zaprezentowany w maju 2026. Model wykorzystuje autorską architekturę Multi-Stream Action Transformer (MSAT), w której każda modalność (wizja, język, propriocepcja, pamięć, dotyk, momenty) przechodzi przez własny strumień przetwarzania, a wspólna uwaga (joint self-attention) łączy je przed dekodowaniem akcji.

Jako backbone wizualno-językowy RLDX-1 wykorzystuje dofinetunowany Qwen3-VL 8B (RLDX-1-VLM). Model integruje moduł motion (kompresja wielu klatek przez kontekstowe video tokens), moduł physics (strumień dotyku i momentów z predykcją przyszłych stanów kontaktu) oraz interfejs poznawczy z 64 cognition tokens spinający długoterminową pamięć (Memory Module).

RLDX-1 jest dystrybuowany w trzech checkpointach: RLDX-1-PT (pre-trained, embodiment-agnostic) oraz dwa mid-trained warianty 8.1B — RLDX-1-MT-ALLEX (humanoid ALLEX) i RLDX-1-MT-DROID (Franka Research 3 z AnySkin). Pipeline treningowy obejmuje pre-training, mid-training dla docelowego embodiment oraz post-training z DAgger i Progress-Aware RL korzystającym z dedykowanego VLM-critic. Wagi i kod są udostępnione na Hugging Face oraz GitHub.

W benchmarkach symulacyjnych RLDX-1 osiąga 97,8 na LIBERO, 70,6 na RoboCasa Kitchen, 58,7 na RoboCasa GR-1 Tabletop oraz 32,1 na RoboCasa 365, przewyższając π₀.₅, π₀-FAST i GR00T N1.5/N1.6. Na realnym benchmarku ALLEX (Conveyor Pick-and-Place, Object-in-Box Selection, Pot-to-Cup Pouring) RLDX-1-MT-ALLEX osiąga odpowiednio 87,5%, 91,7% i 70,8% sukcesu wobec poniżej 30% u baselinów.

Klasyfikacja

Bazowy model robotycznyModel wzrok-język-akcjaModel multimodalny

Dostęp i wdrożenie

Pobieranie

LokalnieNa urządzeniu

Wagi: Open weights

Kluczowe parametry

🧩 Parametry: 8.1B (mid-trained)

✓ Fine-tuning

📥 Wejście: obraz, wideo, tekst, sensory robota…

Robotyka

Dexterous manipulationBimanual manipulationRobot manipulation

Specyfikacja techniczna

Parametry

8.1B (mid-trained)

parametrów

Licencja

Open weights (Hugging Face — RLWRLD)

Wymagania sprzętowe

Inference zoptymalizowane dla GPU klasy NVIDIA RTX 5090 + Intel Core Ultra 7 265K (latencja p50 ~43 ms dla wariantu all-modality dzięki static graph + CUDA Graph + fuzji jąder).

Funkcje:✓ Fine-tuning

Modalności

⬇ Wejście (Input)

imagevideotextrobot_sensorsrobot_state_data

⬆ Wyjście (Output)

robot_actionsmotion_trajectoriesmanipulator_controlrobot_commands

Możliwości i zastosowania

Natywne możliwości modelu

Rozumienie obrazu

Analiza i interpretacja treści obrazów.

Kategoria: vision

Rozumienie wideo

Zdolność analizy wideo poprzez przetwarzanie sekwencji klatek.

Kategoria: video

Rozumienie multimodalne

Zdolność modelu do łączenia i interpretowania informacji z więcej niż jednej modalności, np. tekstu i obrazu.

Kategoria: multimodal

Planowanie

Tworzenie i realizacja planów działania dla złożonych zadań.

Kategoria: planning

Rozumowanie

Zdolność modelu do logicznego wnioskowania i rozwiązywania złożonych problemów.

Kategoria: reasoning

Rozumowanie wieloetapowe

Prowadzenie wieloetapowego toku rozumowania w długich, złożonych zadaniach.

Kategoria: reasoning

Robotyka

Dexterous manipulationBimanual manipulationRobot manipulation

Wyniki benchmarków

10 benchmarków

LIBERO

average success rate · RLDX-1-PT, simulation

97.8%