Robocikowo>ROBOCIKOWO
Google DeepMind RT-2

Google DeepMind RT-2

2
Vision-Language-Action model od Google DeepMind, który co-fine-tunuje model wizyjno-językowy (PaLI-X/PaLM-E) z danymi robotycznymi. Akcje robota reprezentowane są jako tokeny językowe.
🔬 Research🔬 Research onlyBazowy model robotycznyModel multimodalnyModel wzrokowy
Parametry
55B / 562B
parametrów
Data premiery
28 lipca 2023

Przegląd

Google DeepMind RT-2 (Robotic Transformer 2) to model typu Vision-Language-Action (VLA) z lipca 2023 roku. Łączy rozumienie obrazu i języka z bezpośrednim sterowaniem robotem. Model uczy się zarówno z danych webowych, jak i robotycznych, a następnie przekłada tę wiedzę na uogólnione instrukcje sterujące robotem. DeepMind opisuje RT-2 jako model, który zamienia obraz i polecenie tekstowe na akcje robota. W pracy akcje są reprezentowane jako tokeny tekstowe, co pozwala trenować model podobnie jak duże modele językowo-wizyjne. RT-2 wyróżnia się lepszą generalizacją do nowych obiektów i poleceń oraz prostym rozumowaniem semantycznym podczas sterowania robotem. W ewaluacji opisano ok. 6 tys. prób testowych. Dla Robocikowo RT-2 najlepiej klasyfikować jako: robot_foundation_model, vision_language_action, opcjonalnie także multimodal_model.

Klasyfikacja
Bazowy model robotycznyModel multimodalnyModel wzrokowy
Dostęp i wdrożenie
Wagi: Zamknięte
Kluczowe parametry
🧩 Parametry: 55B / 562B
📥 Wejście: obraz, tekst
Robotyka
Robot controlRobot manipulationDexterous manipulationScene understandingVisual groundingEmbodied task planningObject affordance understandingSpatial reasoning

Specyfikacja techniczna

Parametry
55B / 562B
parametrów
Licencja
Proprietary
Wymagania sprzętowe
RT-2-PaLI-X-55B: wielowęzłowe TPU (Google Cloud TPU v4 Pods), sterowanie robotem 1–3 Hz; RT-2-PaLI-X-5B: 5 Hz. Wnioskowanie RT-2-PaLI-X-55B wymaga klastra ~8 GPU NVIDIA A100 lub TPU v4 Pods.
Modalności
⬇ Wejście (Input)
imagetext
⬆ Wyjście (Output)
robot_actionsmanipulator_controlrobot_commandstext

Możliwości i zastosowania

Natywne możliwości modelu
Rozumienie obrazów
Zdolność modelu do analizowania i interpretowania zawartości obrazów.
Kategoria: vision
Rozumienie multimodalne
Zdolność modelu do łączenia i interpretowania informacji z więcej niż jednej modalności, np. tekstu i obrazu.
Kategoria: multimodal
Planowanie
Zdolność modelu do układania planów, sekwencji działań i uporządkowanych kroków rozwiązania.
Kategoria: planning
Rozumowanie
Zdolność modelu do logicznego wnioskowania, analizowania zależności i wyprowadzania odpowiedzi na podstawie przesłanek.
Kategoria: reasoning
Rozumowanie wieloetapowe
Zdolność modelu do rozwiązywania problemów wymagających kilku kolejnych kroków rozumowania.
Kategoria: reasoning
Robotyka
Robot controlRobot manipulationDexterous manipulationScene understandingVisual groundingEmbodied task planningObject affordance understandingSpatial reasoning

Wyniki benchmarków

3 benchmarki
Generalization to unseen objects, backgrounds, environments (RT-1 comparison)
Success rate (%) · RT-2-PaLI-X na zadaniach z niewidzianymi wcześniej obiektami, tłami i środowiskami. RT-1 uzyskał 32% na tych samych zadaniach.
62%
📅 28 lip 2023📄 Brohan et al., arXiv:2307.15818 / Google DeepMind blog (July 2023)
Poprawa z 32% (RT-1) do 62% (RT-2-PaLI-X-55B). Łącznie 6000 prób ewaluacyjnych.
Emergent skills evaluation (RT-2-PaLI-X-55B vs RT-1 i VC-1)
Względna poprawa success rate vs RT-1 · Ewaluacja zdolności emergentnych: rozumowanie symboliczne, rozpoznawanie obiektów i ludzi, rozumowanie semantyczne – kategorii nieobecnych w danych robotycznych. RT-2-PaLI-X-55B ~3× lepszy niż RT-1 i VC-1.
~3x
📅 28 lip 2023📄 robotics-transformer2.github.io / arXiv:2307.15818
Wyniki z projektu badawczego RT-2. Nie jest to benchmark standaryzowany zewnętrznie.
Language Table (symulacja)
Success rate (%) · Otwarto-źródłowy benchmark Language Table (symulacja). Poprzedni SOTA: LAVA 77%, RT-1 74%, BC-Z 72%.
90%
📅 28 lip 2023📄 Brohan et al., arXiv:2307.15818 / Google DeepMind blog (July 2023)
RT-2 (PaLI-X) uzyskał 90% w symulacji i wykazał generalizację do niewidzianych obiektów w wersji realnej.