Rho-alpha

alpha (ρα)

Pierwszy model robotyczny Microsoft Research, zbudowany na rodzinie Phi. Pozycjonowany jako VLA+ — rozszerza klasyczny Vision-Language-Action o czucie dotykowe i online learning z korekt człowieka.

🔬 Research🔬 Research onlyModel wzrok-język-akcjaBazowy model robotyczny

Data premiery

21 stycznia 2026

🏢MicrosoftProducent

Przegląd

Rho-alpha (ρα) to pierwszy model robotyczny ogłoszony przez Microsoft Research 21 stycznia 2026 roku. Zbudowany na rodzinie wizualno-językowej Phi, celuje w manipulację bimanualną sterowaną poleceniami w języku naturalnym. Microsoft pozycjonuje go jako pierwszy model klasy VLA+ — czyli rozszerzenie klasycznej architektury Vision-Language-Action o dwie cechy: czucie dotykowe (tactile sensing) jako trzecią modalność percepcji oraz uczenie online po wdrożeniu z korekt operatora.

Co czyni go „VLA+”

Tactile sensing — model rozumie jak obiekty „czują się” podczas manipulacji, co jest kluczowe przy wkładaniu wtyczki, pakowaniu czy montażu z ciasną tolerancją. Microsoft zapowiada rozszerzenie o force sensing.
Online learning — gdy robot popełni błąd, operator koryguje go (teleoperacja, 3D mouse), a model uczy się z tego feedbacku w czasie rzeczywistym, nawet po deploymencie.

Trening

Hybrydowy pipeline: fizyczne demonstracje z prawdziwych robotów, masowe symulacje RL generowane w NVIDIA Isaac Sim oraz web-scale Visual Question Answering. Symulacja ma kluczowe znaczenie ze względu na brak web-scale korpusu danych dotykowych.

Demonstracje

BusyBox — własny benchmark interakcji fizycznej Microsoftu, sterowany językiem naturalnym.
Plug insertion z feedbackiem dotykowym i korektami operatora w locie.
Pakowanie skrzynki narzędziowej i układanie obiektów z koordynacją oburęczną.

Testowany na układach dwuramiennych i robotach humanoidalnych. Pełny raport techniczny zapowiadany na kolejne miesiące.

Klasyfikacja

Model wzrok-język-akcjaBazowy model robotyczny

Dostęp i wdrożenie

Wagi: Zamknięte

Kluczowe parametry

📥 Wejście: tekst, obraz, sensory robota, dane stanu robota