Rho-alpha (ρα) to pierwszy model robotyczny ogłoszony przez Microsoft Research 21 stycznia 2026 roku. Zbudowany na rodzinie wizualno-językowej Phi, celuje w manipulację bimanualną sterowaną poleceniami w języku naturalnym. Microsoft pozycjonuje go jako pierwszy model klasy VLA+ — czyli rozszerzenie klasycznej architektury Vision-Language-Action o dwie cechy: czucie dotykowe (tactile sensing) jako trzecią modalność percepcji oraz uczenie online po wdrożeniu z korekt operatora.
Co czyni go „VLA+”
- Tactile sensing — model rozumie jak obiekty „czują się” podczas manipulacji, co jest kluczowe przy wkładaniu wtyczki, pakowaniu czy montażu z ciasną tolerancją. Microsoft zapowiada rozszerzenie o force sensing.
- Online learning — gdy robot popełni błąd, operator koryguje go (teleoperacja, 3D mouse), a model uczy się z tego feedbacku w czasie rzeczywistym, nawet po deploymencie.
Trening
Hybrydowy pipeline: fizyczne demonstracje z prawdziwych robotów, masowe symulacje RL generowane w NVIDIA Isaac Sim oraz web-scale Visual Question Answering. Symulacja ma kluczowe znaczenie ze względu na brak web-scale korpusu danych dotykowych.
Demonstracje
- BusyBox — własny benchmark interakcji fizycznej Microsoftu, sterowany językiem naturalnym.
- Plug insertion z feedbackiem dotykowym i korektami operatora w locie.
- Pakowanie skrzynki narzędziowej i układanie obiektów z koordynacją oburęczną.
Testowany na układach dwuramiennych i robotach humanoidalnych. Pełny raport techniczny zapowiadany na kolejne miesiące.