Google DeepMind RT-2

Vision-Language-Action model od Google DeepMind, który co-fine-tunuje model wizyjno-językowy (PaLI-X/PaLM-E) z danymi robotycznymi. Akcje robota reprezentowane są jako tokeny językowe.

🔬 Research🔬 Research onlyBazowy model robotycznyModel multimodalnyModel wzrokowy

Parametry

55B / 562B

parametrów

Data premiery

28 lipca 2023

🔬Google DeepMindLab badawczy 🏢GoogleWłaściciel

Przegląd

Google DeepMind RT-2 (Robotic Transformer 2) to model typu Vision-Language-Action (VLA) z lipca 2023 roku. Łączy rozumienie obrazu i języka z bezpośrednim sterowaniem robotem. Model uczy się zarówno z danych webowych, jak i robotycznych, a następnie przekłada tę wiedzę na uogólnione instrukcje sterujące robotem. DeepMind opisuje RT-2 jako model, który zamienia obraz i polecenie tekstowe na akcje robota. W pracy akcje są reprezentowane jako tokeny tekstowe, co pozwala trenować model podobnie jak duże modele językowo-wizyjne. RT-2 wyróżnia się lepszą generalizacją do nowych obiektów i poleceń oraz prostym rozumowaniem semantycznym podczas sterowania robotem. W ewaluacji opisano ok. 6 tys. prób testowych. Dla Robocikowo RT-2 najlepiej klasyfikować jako: robot_foundation_model, vision_language_action, opcjonalnie także multimodal_model.

Klasyfikacja

Bazowy model robotycznyModel multimodalnyModel wzrokowy

Dostęp i wdrożenie

Wagi: Zamknięte

Kluczowe parametry

🧩 Parametry: 55B / 562B

📥 Wejście: obraz, tekst

Robotyka

Robot controlRobot manipulationDexterous manipulationScene understandingVisual groundingEmbodied task planningObject affordance understandingSpatial reasoning

Specyfikacja techniczna

Parametry

55B / 562B

parametrów

Licencja

Proprietary

Wymagania sprzętowe

RT-2-PaLI-X-55B: wielowęzłowe TPU (Google Cloud TPU v4 Pods), sterowanie robotem 1–3 Hz; RT-2-PaLI-X-5B: 5 Hz. Wnioskowanie RT-2-PaLI-X-55B wymaga klastra ~8 GPU NVIDIA A100 lub TPU v4 Pods.

Modalności

⬇ Wejście (Input)

imagetext

⬆ Wyjście (Output)

robot_actionsmanipulator_controlrobot_commandstext

Możliwości i zastosowania

Natywne możliwości modelu

Rozumienie obrazu

Analiza i interpretacja treści obrazów.

Kategoria: vision

Rozumienie multimodalne

Zdolność modelu do łączenia i interpretowania informacji z więcej niż jednej modalności, np. tekstu i obrazu.

Kategoria: multimodal

Planowanie

Tworzenie i realizacja planów działania dla złożonych zadań.

Kategoria: planning

Rozumowanie

Zdolność modelu do logicznego wnioskowania i rozwiązywania złożonych problemów.

Kategoria: reasoning

Rozumowanie wieloetapowe

Prowadzenie wieloetapowego toku rozumowania w długich, złożonych zadaniach.

Kategoria: reasoning

Robotyka

Robot controlRobot manipulationDexterous manipulationScene understandingVisual groundingEmbodied task planningObject affordance understandingSpatial reasoning

Wyniki benchmarków

3 benchmarki

Generalization to unseen objects, backgrounds, environments (RT-1 comparison)

Success rate (%) · RT-2-PaLI-X na zadaniach z niewidzianymi wcześniej obiektami, tłami i środowiskami. RT-1 uzyskał 32% na tych samych zadaniach.

62%

📅 28 lip 2023📄 Brohan et al., arXiv:2307.15818 / Google DeepMind blog (July 2023)

Poprawa z 32% (RT-1) do 62% (RT-2-PaLI-X-55B). Łącznie 6000 prób ewaluacyjnych.

Emergent skills evaluation (RT-2-PaLI-X-55B vs RT-1 i VC-1)

Względna poprawa success rate vs RT-1 · Ewaluacja zdolności emergentnych: rozumowanie symboliczne, rozpoznawanie obiektów i ludzi, rozumowanie semantyczne – kategorii nieobecnych w danych robotycznych. RT-2-PaLI-X-55B ~3× lepszy niż RT-1 i VC-1.

~3x

📅 28 lip 2023📄 robotics-transformer2.github.io / arXiv:2307.15818

Wyniki z projektu badawczego RT-2. Nie jest to benchmark standaryzowany zewnętrznie.

Language Table (symulacja)

Success rate (%) · Otwarto-źródłowy benchmark Language Table (symulacja). Poprzedni SOTA: LAVA 77%, RT-1 74%, BC-Z 72%.

90%

📅 28 lip 2023📄 Brohan et al., arXiv:2307.15818 / Google DeepMind blog (July 2023)

RT-2 (PaLI-X) uzyskał 90% w symulacji i wykazał generalizację do niewidzianych obiektów w wersji realnej.

Źródła i powiązane strony

5 źródeł

PaperRT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Controlarxiv.org WebRT-2: New model translates vision and language into action – Google DeepMinddeepmind.google WebRT-2 Project Website – robotics-transformer2.github.iorobotics-transformer2.github.io WebWhat is RT-2? – Google Blog (July 2023)blog.google RaportRT-2 paper PDF – robotics-transformer2.github.io/assets/rt2.pdfrobotics-transformer2.github.io

Przeglądaj powiązane tematy

Wszystkie modele robotics foundation model Wszystkie modele multimodal model