Sterowanie · Sterowanie i planowanie

RT-2 (Robotics Transformer 2)

Gemini Robotics·Google DeepMind

Aktywny

KATEGORIASterowanie · Sterowanie i planowanie

GOTOWOŚĆTRL 6

SKALA ADOPCJIBadania / prototyp

LICENCJELicenseRef-Proprietary

PIERWSZE WYDANIE2023

**RT-2 (Robotics Transformer 2)** to przełomowy model Vision-Language-Action ogłoszony przez Google DeepMind w lipcu 2023 r. (paper 'RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control', Brohan et al., arXiv:2307.15818). Następca RT-1, ale w przeciwieństwie do RT-1 (który był specjalizowanym transformerem 35 M parametrów wyłącznie na danych robotycznych), RT-2 **co-trenuje** ogromny pretrenowany Vision-Language Model (PaLI-X 55B lub PaLM-E 12B) na **mieszanym zbiorze** danych webowych (~10 mld par obraz-tekst) + danych robotycznych z RT-1 (~130 k epizodów).

Kluczowa innowacja: **akcje jako tokeny**. RT-2 dyskretyzuje przestrzeń akcji robota (6-DOF translacja/rotacja end-effectora + gripper) na 256 binów per wymiar i traktuje je jako **dodatkowe tokeny w słowniku VLM**. Dzięki temu model jednolicie generuje 'odpowiedź' jako sekwencję tokenów — czy to tekstową (VQA), czy akcję robota. To rozwiązanie pozwala na **emergent capabilities**: RT-2 potrafi wykonywać semantyczne zadania wymagające chain-of-thought reasoning ('Move banana to the sum of two and one' → policzyć liczbę przedmiotów, znaleźć '3' jako odpowiedź, podejść do trzeciego obiektu) których brak w danych treningowych.

Wyniki: RT-2 osiąga **62% sukcesu w generalization scenarios** (nowe obiekty, nowe instrukcje, nowe tła) vs. 32% RT-1. Eksperymenty na robotach mobile manipulator Everyday Robots (Google internal — od 2023 zamknięty projekt) i Franka. RT-2 **nie jest open source** — Google DeepMind udostępnił jedynie checkpoint malutkiej wersji do reprodukcji eksperymentów, brak pełnych wag PaLI-X/PaLM-E. Następcy: **RT-X / Open X-Embodiment** (paźlerze 2023, cross-embodiment generalization), **Gemini Robotics** (marzec 2025, integracja z Apptronik Apollo).

RT-2 zapoczątkowało erę 'foundation models for robotics' i wpłynęło na całą generację następujących modeli: OpenVLA (Stanford/Berkeley, open-source replikacja), π0 (Physical Intelligence), Octo (Berkeley), CogACT. Większość VLA z lat 2024-2026 dziedziczy architekturę 'tokens as actions' z RT-2.

Dokumentacja

Typ i role

Typy oprogramowania

Model VLA / Foundation ModelRuntime

Runtime

Runtime to środowisko lub warstwa uruchomieniowa wykorzystywana do wykonywania kodu, ładowania bibliotek, obsługi zależności i działania aplikacji lub usług w czasie rzeczywistym albo w czasie pracy systemu.

Wybierz pozycję, aby zobaczyć opis.

Kategoria główna

Sterowanie i planowaniePercepcja i wizjaRuntime i infrastruktura

Role w ekosystemie robotycznym

Sterowanie robotemPlanowanie ruchuPercepcjaWizja komputerowa

Sterowanie robotem

Robot Control oznacza rolę oprogramowania odpowiedzialnego za sterowanie ruchem, wykonywanie komend, koordynację działania elementów wykonawczych oraz bezpośrednią logikę operacyjną robota.

Planowanie ruchu

Motion Planning oznacza rolę oprogramowania odpowiedzialnego za planowanie trajektorii, ruchu, kolejności działań oraz wyznaczanie bezpiecznych i wykonalnych ścieżek dla robota lub manipulatora.

Percepcja

Perception oznacza rolę oprogramowania przetwarzającego dane z kamer, LiDAR-ów, IMU i innych sensorów w celu wykrywania obiektów, rozpoznawania sceny, lokalizacji, mapowania i interpretacji środowiska.

Wizja komputerowa

Computer Vision oznacza rolę oprogramowania odpowiedzialnego za przetwarzanie obrazu, analizę wideo, detekcję obiektów, segmentację, śledzenie i inne zadania oparte na danych wizualnych.

Wybierz pozycję, aby zobaczyć opis.

Rodzina oprogramowania

Rodzina

Autorskie stacki VLA

Dojrzałość i adopcja

6 / 9

Faza demonstracji

BadaniaPrototypProdukcja

Skala adopcjiBadania / prototyp

Status utrzymaniaWewnętrzne / własnościowe

Pierwsze wydanie2023

Ostatnia aktualizacja20 maja 2026

Wdrożenia

Eksperymenty wewnętrzne Google DeepMind na mobile manipulatorach Everyday Robots (zamknięty projekt) — 6 000+ scenariuszy eval w 2023 r. RT-2 stał się bazą do programu Open X-Embodiment (X-Embodiment / RT-X, październik 2023, 21 instytucji + Google DeepMind, 1 mln demonstracji z 22 platform robotycznych). Następca **Gemini Robotics** (marzec 2025) integrowany z Apptronik Apollo i Boston Dynamics Spot.

Społeczność

Brak publicznego repo z wagami. Paper arXiv:2307.15818 ma 1500+ cytowań (Q1 2026). Strona projektu robotics-transformer2.github.io z demonstracjami wideo. RT-X / Open X-Embodiment github.com/openx-embodiment ~2,8 k★. Hashtag #RT-2 / #VLA na X/Twitter generuje ~50-100 wzmianek/dzień.

Organizacje

Google DeepMind

Producent · Główny

Integruje się z

NVIDIA Isaac Sim

Symulator robotyki o fotorealistycznej grafice (RTX) z zaawansowaną fizyką PhysX 5. Bazuje na Omniverse Kit, wspiera ROS 2, syntetyczne dane SDG, treningi w Isaac Lab i pipeline Isaac ROS dla wdrożeń na Jetsonie.

→

MuJoCo (Multi-Joint dynamics with Contact)

Otwarty silnik fizyki rigid-body z dokładną symulacją kontaktów i tarcia, stworzony przez Emo Todorova. Od 2021 r. open source na Apache 2.0 pod opieką DeepMind. Standard w robotyce uczącej (RL) i Sim-to-Real.

→

OpenVLA

Open-source replikacja RT-2 (Stanford + Berkeley + TRI, czerwiec 2024). VLA 7B parametrów (Llama 2 + DINOv2 + SigLIP), trening na 970 k demonstracjach z Open X-Embodiment.

→

Powiązane oprogramowanie robotyczne

Π(

π0 (pi-zero)

Pierwszy 'generalist robot policy' Physical Intelligence — VLA z flow matching, akcje 50 Hz, trening 10 000+ godzin demonstracji. Open weights π0-base (luty 2025, Apache 2.0).

→

Π(

π0.5 (pi-zero-5)

π0.5 (pi-zero-5, Physical Intelligence) — rozwinięcie π0 skupione na open-world mobile manipulation: generalizuje na nowe środowiska i zadania bez dodatkowego fine-tuningu dzięki dużej skali danych treningowych.

→

OpenVLA

Open-source replikacja RT-2 (Stanford + Berkeley + TRI, czerwiec 2024). VLA 7B parametrów (Llama 2 + DINOv2 + SigLIP), trening na 970 k demonstracjach z Open X-Embodiment.

→

GR00T N1

NVIDIA GR00T N1 — otwarty model fundamentalny dla humanoidów: dual-system VLA (szybka polityka ruchowa + wolna reguła semantyczna), trenowany na danych cross-embodiment, dostępny przez NVIDIA Isaac.

→

LeRobot

LeRobot (Hugging Face) — otwarty framework do robot learning z implementacjami ACT, Diffusion Policy, TDMPC. Standaryzuje zbieranie danych i trening polityk dla manipulatorów i mobilnych robotów.

→

Obsługiwane modele robotów

Atlas

Humanoidalny robot dwunożny Boston Dynamics. W pełni elektryczna generacja zaprezentowana w 2024 roku jako następca hydraulicznego Atlasa wycofanego po ponad dekadzie badań.

Applications

Automatyzacja fabryki
Badania
Obsługa linii produkcyjnej
Manipulacja obiektami

Figure 03

Figure 03 to trzeciej generacji humanoidalny robot Figure AI, zaprojektowany dla Helix, środowiska domowego i skalowalnej produkcji masowej.

Applications

Automatyzacja fabryki
Logistyka przemysłowa
Obsługa linii produkcyjnej
Automatyzacja magazynowa
Manipulacja obiektami
Asystencja domowa

Unitree G1

Humanoidalny robot dwunożny firmy Unitree Robotics, zaprojektowany jako kompaktowa platforma badawczo-rozwojowa oraz deweloperska.

Applications

Badania
Asystencja domowa

Docelowe platformy robotyczne

Ramię robotyczne

Robot mobilny

Robot badawczy

Obsługiwany sprzęt

NVIDIA Jetson AGX Orin 64GB

compute · compute_modules · industrial

NVIDIA Jetson AGX Thor

compute · compute_modules · industrial

Intel RealSense D435i

sensing · cameras · research · Stereoskopowa kamera RGB-D

Stereolabs ZED 2i

sensing · cameras · industrial

Licencje

Rodzina licencji: Własnościowa – komercyjna

Domyślny status prawny oprogramowania bez jawnie określonej licencji – wszystkie prawa zastrzeżone przez właściciela praw autorskich. Użycie, modyfikacja i dystrybucja są zabronione bez pisemnej zgody właściciela. Nie jest licencją w ścisłym sensie, lecz brakiem licencji – kod bez pliku LICENSE jest domyślnie All Rights Reserved.

Uwaga dla robotyki

Ważna informacja dla edytorów: oprogramowanie bez jawnego pliku licencji jest automatycznie All Rights Reserved i nie może być legalnie używane, modyfikowane ani dystrybuowane. Producenci robotów powinni zawsze jawnie określać licencję. Redaktorzy Robocikowo powinni flagować wpisy bez określonej licencji i kontaktować się z producentem w celu wyjaśnienia.

SPDX ↗

Historia wersji

Gemini Roboticsmar 2025

Następca RT-2 oparty o Gemini 2.0 — multimodal VLA z partnerstwem Apptronik (Apollo).

AutoRT + SARA-RTsty 2024

Pochodne architektury — AutoRT (scaling robot data collection) + SARA-RT (efficient self-attention).

RT-2-Xpaź 2023

Wersja RT-2 trenowana na rozszerzonym zbiorze Open X-Embodiment.

RT-X / Open X-Embodimentpaź 2023

Cross-embodiment training: 1 mln demonstracji z 22 robotów + 21 instytucji. Pierwszy benchmark cross-embodiment generalization.

RT-2 paperlip 2023

RT-2 — co-training PaLI-X 55B z danymi robotycznymi. Wprowadzenie 'tokens as actions'. Emergent reasoning capabilities.

RT-1 papergru 2022

Robotics Transformer 1 — 35 M parametrów, trening tylko na danych robotycznych (130 k epizodów Everyday Robots). Bazowy benchmark.