
Robotyczny model VLA od Sharpa do kontaktowo-bogatych, bimanualnych zadań manipulacyjnych z użyciem wzroku, języka, siły i dotyku.
Okno kontekstowe
nieujawnione publicznie
tokenów
Parametry
nieujawnione publicznie; backbone obejmuje SigLIP So400m/14, PaliGemma (Gemma-3B) oraz action expert Gemma-300M
parametrów
Data premiery
9 marca 2026
Przegląd
Kluczowe parametry
📏 Kontekst: nieujawnione publicznie
🧩 Parametry: nieujawnione publicznie; backbone obejmuje SigLIP So400m/14, PaliGemma (Gemma-3B) oraz action expert Gemma-300M
📥 Wejście: tekst, robot_vision, sensory robota, dane stanu robota
Specyfikacja techniczna
Okno kontekstowe
nieujawnione publicznie
tokenów
Parametry
nieujawnione publicznie; backbone obejmuje SigLIP So400m/14, PaliGemma (Gemma-3B) oraz action expert Gemma-300M
parametrów
Licencja
CC BY 4.0 for paper; model/license for weights not publicly disclosed
Wymagania sprzętowe
Wymaga zaawansowanej platformy robotycznej z kamerami RGB, propriocepcją, pomiarem momentów/sił oraz dotykowymi sensorami na dłoniach; demonstracja oparta na platformie Sharpa North z dwiema dłońmi Sharpa Wave.
Modalności
⬇ Wejście (Input)
textrobot_visionrobot_sensorsrobot_state_data
⬆ Wyjście (Output)
robot_actionsrobot_commandsmanipulator_controlmotion_trajectories
Możliwości i zastosowania
Natywne możliwości modelu
Rozumowanie
Zdolność modelu do logicznego wnioskowania, analizowania zależności i wyprowadzania odpowiedzi na podstawie przesłanek.
Kategoria: reasoning
Planowanie
Zdolność modelu do układania planów, sekwencji działań i uporządkowanych kroków rozwiązania.
Kategoria: planning
Rozumienie obrazów
Zdolność modelu do analizowania i interpretowania zawartości obrazów.
Kategoria: vision
Rozumienie multimodalne
Zdolność modelu do łączenia i interpretowania informacji z więcej niż jednej modalności, np. tekstu i obrazu.
Kategoria: multimodal