
Vision-Language-Action model od Google DeepMind, który co-fine-tunuje model wizyjno-językowy (PaLI-X/PaLM-E) z danymi robotycznymi. Akcje robota reprezentowane są jako tokeny językowe.
🔬 Research🔬 Research onlyBazowy model robotycznyModel multimodalnyModel wzrokowy
Parametry
55B / 562B
parametrów
Data premiery
28 lipca 2023
Przegląd
Klasyfikacja
Bazowy model robotycznyModel multimodalnyModel wzrokowy
Dostęp i wdrożenie
Wagi: Zamknięte
Kluczowe parametry
🧩 Parametry: 55B / 562B
📥 Wejście: obraz, tekst
Robotyka
Robot controlRobot manipulationDexterous manipulationScene understandingVisual groundingEmbodied task planningObject affordance understandingSpatial reasoning
Specyfikacja techniczna
Parametry
55B / 562B
parametrów
Licencja
Proprietary
Wymagania sprzętowe
RT-2-PaLI-X-55B: wielowęzłowe TPU (Google Cloud TPU v4 Pods), sterowanie robotem 1–3 Hz; RT-2-PaLI-X-5B: 5 Hz. Wnioskowanie RT-2-PaLI-X-55B wymaga klastra ~8 GPU NVIDIA A100 lub TPU v4 Pods.
Modalności
⬇ Wejście (Input)
imagetext
⬆ Wyjście (Output)
robot_actionsmanipulator_controlrobot_commandstext
Możliwości i zastosowania
Natywne możliwości modelu
Rozumienie obrazów
Zdolność modelu do analizowania i interpretowania zawartości obrazów.
Kategoria: vision
Rozumienie multimodalne
Zdolność modelu do łączenia i interpretowania informacji z więcej niż jednej modalności, np. tekstu i obrazu.
Kategoria: multimodal
Planowanie
Zdolność modelu do układania planów, sekwencji działań i uporządkowanych kroków rozwiązania.
Kategoria: planning
Rozumowanie
Zdolność modelu do logicznego wnioskowania, analizowania zależności i wyprowadzania odpowiedzi na podstawie przesłanek.
Kategoria: reasoning
Rozumowanie wieloetapowe
Zdolność modelu do rozwiązywania problemów wymagających kilku kolejnych kroków rozumowania.
Kategoria: reasoning
Robotyka
Robot controlRobot manipulationDexterous manipulationScene understandingVisual groundingEmbodied task planningObject affordance understandingSpatial reasoning
Wyniki benchmarków
3 benchmarki
Generalization to unseen objects, backgrounds, environments (RT-1 comparison)
Success rate (%) · RT-2-PaLI-X na zadaniach z niewidzianymi wcześniej obiektami, tłami i środowiskami. RT-1 uzyskał 32% na tych samych zadaniach.
62%
📅 28 lip 2023📄 Brohan et al., arXiv:2307.15818 / Google DeepMind blog (July 2023)
Poprawa z 32% (RT-1) do 62% (RT-2-PaLI-X-55B). Łącznie 6000 prób ewaluacyjnych.
Emergent skills evaluation (RT-2-PaLI-X-55B vs RT-1 i VC-1)
Względna poprawa success rate vs RT-1 · Ewaluacja zdolności emergentnych: rozumowanie symboliczne, rozpoznawanie obiektów i ludzi, rozumowanie semantyczne – kategorii nieobecnych w danych robotycznych. RT-2-PaLI-X-55B ~3× lepszy niż RT-1 i VC-1.
~3x
📅 28 lip 2023📄 robotics-transformer2.github.io / arXiv:2307.15818
Wyniki z projektu badawczego RT-2. Nie jest to benchmark standaryzowany zewnętrznie.
Language Table (symulacja)
Success rate (%) · Otwarto-źródłowy benchmark Language Table (symulacja). Poprzedni SOTA: LAVA 77%, RT-1 74%, BC-Z 72%.
90%
📅 28 lip 2023📄 Brohan et al., arXiv:2307.15818 / Google DeepMind blog (July 2023)
RT-2 (PaLI-X) uzyskał 90% w symulacji i wykazał generalizację do niewidzianych obiektów w wersji realnej.
Źródła i powiązane strony
5 źródeł
PaperRT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic ControlWebRT-2: New model translates vision and language into action – Google DeepMindWebRT-2 Project Website – robotics-transformer2.github.ioWebWhat is RT-2? – Google Blog (July 2023)RaportRT-2 paper PDF – robotics-transformer2.github.io/assets/rt2.pdf
Przeglądaj powiązane tematy