Robocikowo>ROBOCIKOWO
Robotyka

MSAT

2026EksperymentalnyOpublikowany
Architektura polityki robotycznej, w której każda modalność (obraz, język, propriocepcja, dotyk) ma własny strumień tokenów, a transformer łączy je przez cross-modal joint self-attention. Wprowadzona w pracy RLDX-1 (RLWRLD, 2026) jako sposób na rozszerzenie VLA o motion awareness, długoterminową pamięć i physical sensing.
Kluczowa innowacja
Integracja heterogenicznych modalności robotycznych (wizja, język, propriocepcja, sensory dotyku, sygnały silników) w postaci osobnych, modalność-specyficznych strumieni tokenów wewnątrz jednego transformera, łączonych przez cross-modal joint self-attention — co pozwala polityce VLA jednocześnie uczyć się broad scene understanding i wąskich zdolności funkcjonalnych (motion awareness, długoterminowa pamięć, physical sensing) bez kompromisów inżynierii potoku.
Kategoria
Robotyka
Poziom abstrakcji
Pattern
Zastosowania
Dexterous manipulation w robotach humanoidalnych z wieloma sensorami (kamera + propriocepcja + dotyk)Generalist robotic policies wymagające zarówno broad VLM-style generalization, jak i wąskich funkcjonalnych zdolnościSterowanie wysokim DoF humanoidów (np. ALLEX) w zadaniach kontaktowych i dynamicznychZadania wymagające long-term memory i motion awareness, gdzie klasyczne VLA zawodzą

Jak działa

Każda modalność wejściowa jest najpierw tokenizowana przez własny enkoder/embedding (np. ViT dla obrazu, tokenizer LLM dla języka, MLP dla propriocepcji, dedykowany koder dla tachilnych). Otrzymane sekwencje tokenów tworzą równoległe strumienie, każdy z własną pozycją i identyfikatorem modalności. Strumienie są konkatenowane do jednej długiej sekwencji wejściowej transformera, gdzie warstwy joint self-attention łączą tokeny ze wszystkich modalności w pojedynczych operacjach uwagi. Wyjściem są tokeny akcji (sekwencje sterowań robota), generowane autoregresywnie lub przez wyspecjalizowaną głowicę. RLDX-1 łączy MSAT z syntezą danych dla rzadkich scenariuszy manipulacji, learning procedures dostrojonymi do human-like manipulation oraz optymalizacjami inferencji dla deploymentu w czasie rzeczywistym.

Rozwiązany problem

Klasyczne VLA pretrenowane na pretreningowych VLM-ach dobrze radzą sobie z rozumieniem sceny i instrukcji, ale słabo z zadaniami wymagającymi wąskich zdolności funkcjonalnych — motion awareness, długoterminową pamięcią, physical sensing. Próby dodawania nowych modalności przez naiwną konkatenację tokenów psują wcześniejsze reprezentacje wizyjno-językowe lub wymagają kruchych potoków per-modalność. MSAT rozwiązuje ten problem strukturalnie: każda modalność ma osobny strumień embeddingu, więc nie psuje innych, a cross-modal joint self-attention zapewnia spójne wspólne rozumowanie.

Komponenty

Modality-specific streams
Cross-modal joint self-attention
Action head
Modality positional/type encoding

Implementacja

Pułapki implementacyjne
Imbalans strumieni modalnościKrytyczna

Strumienie o silnym sygnale uczącym (wizja, język) mogą dominować uwagę w joint attention i marginalizować strumienie z mniejszą gęstością informacji (propriocepcja, dotyk). Wymaga starannego balansowania straty per modalność lub wag attention.

Eksplozja długości sekwencjiWysoka

Każda nowa modalność zwiększa liczbę tokenów wejściowych transformera. Przy 5+ strumieniach sekwencja staje się zbyt długa dla naiwnej O(n²) uwagi — wymaga sparse attention lub agresywnej tokenizacji.

Zaszumione strumienie sensorówWysoka

Tachiilne i siłowe sygnały są często mocno zaszumione i nieskalibrowane między epizodami. Bez filtracji wstępnej lub specyficznej normalizacji per-strumień, joint attention uczy się szumu.

Latencja inferencji w czasie rzeczywistymŚrednia

Wielomodalna sekwencja zwiększa koszt forward pass. Aby zachować częstotliwość sterowania humanoidów, konieczne są optymalizacje inferencji (KV-cache, action chunking, kompresja tokenów).

Ewolucja

Oryginalny paper · 2026 · Dongyoung Kim
RLDX-1 Technical Report
Dongyoung Kim, Huiwon Jang, Myungkyu Koo, Jinwoo Shin, et al. (RLWRLD team, 68 authors)
2023
RT-2 (Google DeepMind) wprowadza VLA jako foundation model dla manipulacji — szerokie zdolności scenowe i językowe, ale ograniczone w zadaniach wymagających bogatego sensorium fizycznego.
2024
Klasyczne Multimodal LLM łączą modalności przez naiwną konkatenację tokenów lub adaptery — co psuje reprezentacje istniejące przy dodaniu nowej modalności.
2026
RLDX-1 (RLWRLD, arXiv:2605.03269) wprowadza Multi-Stream Action Transformer — modalność-specyficzne strumienie + cross-modal joint self-attention — przebijając π₀.₅ i GR00T N1.6 w zadaniach ALLEX humanoid (86.8% vs ~40%).
Szczegóły techniczne

Hiperparametry (konfigurowalne osie)

Liczba i typ strumieni modalnościKrytyczna

Zestaw modalności objętych osobnymi strumieniami (np. RGB, depth, język, propriocepcja, dotyk, sygnały silników). Wpływa na pojemność reprezentacji i koszt obliczeniowy.

Tokenizer per modalnośćWysoka

Wybór enkodera/tokenizera dla każdej modalności (ViT, DINO, własny MLP dla proprio, dedykowany koder dla taktilnych).

Głębokość fuzji międzymodalnejWysoka

Liczba warstw, w których joint self-attention łączy strumienie (vs warstwy działające tylko wewnątrz strumienia). Steruje trade-offem między modalność-specyficznością a wspólnym rozumowaniem.

Horyzont predykcji akcjiŚrednia

Liczba kroków akcji generowanych w jednym przebiegu (action chunking). Wpływa na latencję inferencji i stabilność polityki.

Paradygmat wykonania

Tryb główny
dense
Wzorzec aktywacji
all_paths_active

Równoległość

Poziom równoległości
partially_parallel
Zakres
trainingacross_tokens

Wymagania sprzętowe

Podstawowe
Dobry fit