Gemini Robotics 1.5

1.5 · Rodzina: Gemini

Model Vision-Language-Action (VLA) od Google DeepMind zamieniajacy obraz i jezyk na komendy motoryczne dla robotow.

⏳ Preview⏳ Ograniczony dostępModel multimodalnyBazowy model robotycznyModel wzrok-język-akcja📁 Gemini

Okno kontekstowe

32K

tokenów

Data premiery

14 kwietnia 2026

🔬Google DeepMindLab badawczy

Dostęp:HostedWdrożenie:☁ Cloud

Przegląd

Gemini Robotics 1.5 to najnowszy model Vision-Language-Action (VLA) Google DeepMind, bedacy bezposrednim rozwinieciem oryginalnego Gemini Robotics. Przetwarza wejscie wizualne (obrazy z kamer robotow) oraz instrukcje tekstowe i generuje na wyjsciu komendy motoryczne sterujace stawami robotow. To kluczowa roznica od modeli VLM/LLM model nie opisuje, co widzi, lecz bezposrednio kontroluje ruch fizyczny.

Model wykazuje uogolnienie na nowe instrukcje, akcje i konteksty wizualne, a jeden model moze dzialac na wielu roznych platformach robotycznych (ALOHA, Bi-arm Franka, humanoid Apptronik Apollo). W tandemie z Gemini Robotics-ER 1.6 tworzy kompletny system do sterowania robotami fizycznymi.

Klasyfikacja

Model multimodalnyBazowy model robotycznyModel wzrok-język-akcja

Rodzina: Gemini

Zastosowania

Automatyzacja procesów Asystent badawczy

Dostęp i wdrożenie

Hostowane

Chmura

Wagi: Zamknięte

Kluczowe parametry

📏 Kontekst: 32K

📥 Wejście: tekst, obraz

Robotyka

Dexterous manipulationRobot manipulationRobot controlEmbodied task planningVisual groundingBimanual manipulationMotion planning

Specyfikacja techniczna

Okno kontekstowe

32K

tokenów

Modalności

⬇ Wejście (Input)

textimage

⬆ Wyjście (Output)

textaction

Możliwości i zastosowania

Natywne możliwości modelu

Rozumowanie

Zdolność modelu do logicznego wnioskowania i rozwiązywania złożonych problemów.

Kategoria: reasoning

Rozumowanie wieloetapowe

Prowadzenie wieloetapowego toku rozumowania w długich, złożonych zadaniach.

Kategoria: reasoning

Planowanie

Tworzenie i realizacja planów działania dla złożonych zadań.

Kategoria: planning

Rozumienie obrazu

Analiza i interpretacja treści obrazów.

Kategoria: vision

Rozumienie multimodalne

Zdolność modelu do łączenia i interpretowania informacji z więcej niż jednej modalności, np. tekstu i obrazu.

Kategoria: multimodal

Wielojęzyczność

Kompetencje w wielu językach naturalnych (od kilku do stu+): rozumienie, generowanie, tłumaczenie, code-switching w obrębie jednej rozmowy. Modele frontier obsługują szeroki wachlarz języków ze zbliżoną jakością.

Kategoria: language

Robotyka

Dexterous manipulationRobot manipulationRobot controlEmbodied task planningVisual groundingBimanual manipulationMotion planning

Dziedziny zastosowań

Automatyzacja procesów Asystent badawczy

Wyniki benchmarków

5 benchmarków

Generalization: In-Distribution (internal)

progress score · progress score, robotic manipulation tasks

0.830-1