Robocikowo>ROBOCIKOWO
RL

RLDX-1

1
Foundation model RLWRLD do dexterous manipulation; oparty o architekturę Multi-Stream Action Transformer (MSAT) z dedykowanymi strumieniami dla wizji, dotyku, momentów i pamięci.
✓ Aktywny✓ Publiczny dostęp⚖ Open weightsBazowy model robotycznyModel wzrok-język-akcjaModel multimodalny
Parametry
8.1B (mid-trained)
parametrów
Data premiery
7 maja 2026
Dostęp:DownloadWdrożenie:💻 Lokalnie📱 Na urządzeniu

Przegląd

RLDX-1 to dexterity-first foundation model dla rąk robotycznych opracowany przez RLWRLD i zaprezentowany w maju 2026. Model wykorzystuje autorską architekturę Multi-Stream Action Transformer (MSAT), w której każda modalność (wizja, język, propriocepcja, pamięć, dotyk, momenty) przechodzi przez własny strumień przetwarzania, a wspólna uwaga (joint self-attention) łączy je przed dekodowaniem akcji.

Jako backbone wizualno-językowy RLDX-1 wykorzystuje dofinetunowany Qwen3-VL 8B (RLDX-1-VLM). Model integruje moduł motion (kompresja wielu klatek przez kontekstowe video tokens), moduł physics (strumień dotyku i momentów z predykcją przyszłych stanów kontaktu) oraz interfejs poznawczy z 64 cognition tokens spinający długoterminową pamięć (Memory Module).

RLDX-1 jest dystrybuowany w trzech checkpointach: RLDX-1-PT (pre-trained, embodiment-agnostic) oraz dwa mid-trained warianty 8.1B — RLDX-1-MT-ALLEX (humanoid ALLEX) i RLDX-1-MT-DROID (Franka Research 3 z AnySkin). Pipeline treningowy obejmuje pre-training, mid-training dla docelowego embodiment oraz post-training z DAgger i Progress-Aware RL korzystającym z dedykowanego VLM-critic. Wagi i kod są udostępnione na Hugging Face oraz GitHub.

W benchmarkach symulacyjnych RLDX-1 osiąga 97,8 na LIBERO, 70,6 na RoboCasa Kitchen, 58,7 na RoboCasa GR-1 Tabletop oraz 32,1 na RoboCasa 365, przewyższając π₀.₅, π₀-FAST i GR00T N1.5/N1.6. Na realnym benchmarku ALLEX (Conveyor Pick-and-Place, Object-in-Box Selection, Pot-to-Cup Pouring) RLDX-1-MT-ALLEX osiąga odpowiednio 87,5%, 91,7% i 70,8% sukcesu wobec poniżej 30% u baselinów.

Klasyfikacja
Bazowy model robotycznyModel wzrok-język-akcjaModel multimodalny
Dostęp i wdrożenie
Pobieranie
LokalnieNa urządzeniu
Wagi: Open weights
Kluczowe parametry
🧩 Parametry: 8.1B (mid-trained)
✓ Fine-tuning
📥 Wejście: obraz, wideo, tekst, sensory robota
Robotyka
Dexterous manipulationBimanual manipulationRobot manipulation

Specyfikacja techniczna

Parametry
8.1B (mid-trained)
parametrów
Licencja
Open weights (Hugging Face — RLWRLD)
Wymagania sprzętowe
Inference zoptymalizowane dla GPU klasy NVIDIA RTX 5090 + Intel Core Ultra 7 265K (latencja p50 ~43 ms dla wariantu all-modality dzięki static graph + CUDA Graph + fuzji jąder).
Funkcje:Fine-tuning
Modalności
⬇ Wejście (Input)
imagevideotextrobot_sensorsrobot_state_data
⬆ Wyjście (Output)
robot_actionsmotion_trajectoriesmanipulator_controlrobot_commands

Możliwości i zastosowania

Natywne możliwości modelu
Rozumienie obrazów
Zdolność modelu do analizowania i interpretowania zawartości obrazów.
Kategoria: vision
Rozumienie wideo
Zdolność analizy wideo poprzez przetwarzanie sekwencji klatek.
Kategoria: video
Rozumienie multimodalne
Zdolność modelu do łączenia i interpretowania informacji z więcej niż jednej modalności, np. tekstu i obrazu.
Kategoria: multimodal
Planowanie
Zdolność modelu do układania planów, sekwencji działań i uporządkowanych kroków rozwiązania.
Kategoria: planning
Rozumowanie
Zdolność modelu do logicznego wnioskowania, analizowania zależności i wyprowadzania odpowiedzi na podstawie przesłanek.
Kategoria: reasoning
Rozumowanie wieloetapowe
Zdolność modelu do rozwiązywania problemów wymagających kilku kolejnych kroków rozumowania.
Kategoria: reasoning
Robotyka
Dexterous manipulationBimanual manipulationRobot manipulation

Wyniki benchmarków

10 benchmarków
LIBERO
average success rate · RLDX-1-PT, simulation
97.8%
📅 7 maj 2026📄 RLWRLD Tech Report (arXiv:2605.03269)
RoboCasa Kitchen
average success rate · RLDX-1-PT vs GR00T N1.6 66.2 / π₀.₅ 62.1
70.6%
📅 7 maj 2026📄 RLWRLD Tech Report (arXiv:2605.03269)
RoboCasa GR-1 Tabletop
average success rate · RLDX-1-PT, humanoid suite (+10.7%p vs GR00T N1.5 48.0)
58.7%
📅 7 maj 2026📄 RLWRLD Tech Report (arXiv:2605.03269)
RoboCasa 365
average success rate · RLDX-1-PT, long-horizon multi-stage (+5.2%p vs GR00T N1.6 26.9)
32.1%
📅 7 maj 2026📄 RLWRLD Tech Report (arXiv:2605.03269)
SIMPLER Google-VM
average success rate · RLDX-1-PT, simulation
81.5%
📅 7 maj 2026📄 RLWRLD Tech Report (arXiv:2605.03269)
LIBERO-Plus
total robustness · RLDX-1-PT vs GR00T N1.6 72.6 / π₀-FAST 64.2
86.7%
📅 7 maj 2026📄 RLWRLD Tech Report (arXiv:2605.03269)
ALLEX Conveyor Pick-and-Place
success rate · RLDX-1-MT-ALLEX, real-world
87.5%
📅 7 maj 2026📄 RLWRLD Tech Report (arXiv:2605.03269)
ALLEX Object-in-Box Selection
success rate · RLDX-1-MT-ALLEX, real-world
91.7%
📅 7 maj 2026📄 RLWRLD Tech Report (arXiv:2605.03269)
ALLEX Pot-to-Cup Pouring
success rate · RLDX-1-MT-ALLEX, real-world
70.8%
📅 7 maj 2026📄 RLWRLD Tech Report (arXiv:2605.03269)
DROID Shell Game (memory)
success rate · RLDX-1-MT-DROID, Franka Research 3 + AnySkin
91.7%
📅 7 maj 2026📄 RLWRLD Tech Report (arXiv:2605.03269)

Architektura techniczna

Rdzeń architektury (Core Architecture)
Techniki trenowania (Training Techniques)