
Research
28 lip 2023
Google DeepMind RT-2
Robotics FMRobotics FMMultimodalMultimodal
Vision-Language-Action model od Google DeepMind, który co-fine-tunuje model wizyjno-językowy (PaLI-X/PaLM-E) z danymi robotycznymi. Akcje robota reprezentowane są jako tokeny językowe.
Specyfikacja techniczna
Parametry55B / 562B
LicencjaProprietary
Tool useNie
Fine-tuningNie
Dostęp do wagClosed
Ostatnia aktualizacja: 30 mar 2026
Modalności
Wejście
Obraz
Tekst
Wyjście
Akcje robota
Sterow. manip.
Możliwości
5Image understanding★
Wizja
Multimodal understanding★
Multimodalność
Planning★
Planowanie
Reasoning★
Rozumowanie
Multi-step reasoning★
Rozumowanie
Zdolności Robotyczne AI
Źródła
Publikacja1Strona2






