**RT-2 (Robotics Transformer 2)** to przełomowy model Vision-Language-Action ogłoszony przez Google DeepMind w lipcu 2023 r. (paper 'RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control', Brohan et al., arXiv:2307.15818). Następca RT-1, ale w przeciwieństwie do RT-1 (który był specjalizowanym transformerem 35 M parametrów wyłącznie na danych robotycznych), RT-2 **co-trenuje** ogromny pretrenowany Vision-Language Model (PaLI-X 55B lub PaLM-E 12B) na **mieszanym zbiorze** danych webowych (~10 mld par obraz-tekst) + danych robotycznych z RT-1 (~130 k epizodów).
Kluczowa innowacja: **akcje jako tokeny**. RT-2 dyskretyzuje przestrzeń akcji robota (6-DOF translacja/rotacja end-effectora + gripper) na 256 binów per wymiar i traktuje je jako **dodatkowe tokeny w słowniku VLM**. Dzięki temu model jednolicie generuje 'odpowiedź' jako sekwencję tokenów — czy to tekstową (VQA), czy akcję robota. To rozwiązanie pozwala na **emergent capabilities**: RT-2 potrafi wykonywać semantyczne zadania wymagające chain-of-thought reasoning ('Move banana to the sum of two and one' → policzyć liczbę przedmiotów, znaleźć '3' jako odpowiedź, podejść do trzeciego obiektu) których brak w danych treningowych.
Wyniki: RT-2 osiąga **62% sukcesu w generalization scenarios** (nowe obiekty, nowe instrukcje, nowe tła) vs. 32% RT-1. Eksperymenty na robotach mobile manipulator Everyday Robots (Google internal — od 2023 zamknięty projekt) i Franka. RT-2 **nie jest open source** — Google DeepMind udostępnił jedynie checkpoint malutkiej wersji do reprodukcji eksperymentów, brak pełnych wag PaLI-X/PaLM-E. Następcy: **RT-X / Open X-Embodiment** (paźlerze 2023, cross-embodiment generalization), **Gemini Robotics** (marzec 2025, integracja z Apptronik Apollo).
RT-2 zapoczątkowało erę 'foundation models for robotics' i wpłynęło na całą generację następujących modeli: OpenVLA (Stanford/Berkeley, open-source replikacja), π0 (Physical Intelligence), Octo (Berkeley), CogACT. Większość VLA z lat 2024-2026 dziedziczy architekturę 'tokens as actions' z RT-2.