Robocikowo>ROBOCIKOWO
Rho-alpha

Rho-alpha

alpha (ρα)
Pierwszy model robotyczny Microsoft Research, zbudowany na rodzinie Phi. Pozycjonowany jako VLA+ — rozszerza klasyczny Vision-Language-Action o czucie dotykowe i online learning z korekt człowieka.
🔬 Research🔬 Research onlyModel wzrok-język-akcjaBazowy model robotyczny
Data premiery
21 stycznia 2026

Przegląd

Rho-alpha (ρα) to pierwszy model robotyczny ogłoszony przez Microsoft Research 21 stycznia 2026 roku. Zbudowany na rodzinie wizualno-językowej Phi, celuje w manipulację bimanualną sterowaną poleceniami w języku naturalnym. Microsoft pozycjonuje go jako pierwszy model klasy VLA+ — czyli rozszerzenie klasycznej architektury Vision-Language-Action o dwie cechy: czucie dotykowe (tactile sensing) jako trzecią modalność percepcji oraz uczenie online po wdrożeniu z korekt operatora.

Co czyni go „VLA+”

  • Tactile sensing — model rozumie jak obiekty „czują się” podczas manipulacji, co jest kluczowe przy wkładaniu wtyczki, pakowaniu czy montażu z ciasną tolerancją. Microsoft zapowiada rozszerzenie o force sensing.
  • Online learning — gdy robot popełni błąd, operator koryguje go (teleoperacja, 3D mouse), a model uczy się z tego feedbacku w czasie rzeczywistym, nawet po deploymencie.

Trening

Hybrydowy pipeline: fizyczne demonstracje z prawdziwych robotów, masowe symulacje RL generowane w NVIDIA Isaac Sim oraz web-scale Visual Question Answering. Symulacja ma kluczowe znaczenie ze względu na brak web-scale korpusu danych dotykowych.

Demonstracje

  • BusyBox — własny benchmark interakcji fizycznej Microsoftu, sterowany językiem naturalnym.
  • Plug insertion z feedbackiem dotykowym i korektami operatora w locie.
  • Pakowanie skrzynki narzędziowej i układanie obiektów z koordynacją oburęczną.

Testowany na układach dwuramiennych i robotach humanoidalnych. Pełny raport techniczny zapowiadany na kolejne miesiące.

Klasyfikacja
Model wzrok-język-akcjaBazowy model robotyczny
Dostęp i wdrożenie
Wagi: Zamknięte
Kluczowe parametry
📥 Wejście: tekst, obraz, sensory robota, dane stanu robota

Specyfikacja techniczna

Modalności
⬇ Wejście (Input)
textimagerobot_sensorsrobot_state_data
⬆ Wyjście (Output)
robot_actionsrobot_commandsmotion_trajectories

Architektura techniczna

Rdzeń architektury (Core Architecture)
Forma modelu (Model Form)

Wdrożenie i bezpieczeństwo

💾 Powiązane oprogramowanie