Robocikowo>ROBOCIKOWO
Gemini Robotics 1.5

Gemini Robotics 1.5

1.5 · Rodzina: Gemini
Model Vision-Language-Action (VLA) od Google DeepMind zamieniajacy obraz i jezyk na komendy motoryczne dla robotow.
⏳ Preview⏳ Ograniczony dostępModel multimodalnyBazowy model robotycznyModel wzrok-język-akcja📁 Gemini
Okno kontekstowe
32K
tokenów
Data premiery
14 kwietnia 2026
Dostęp:HostedWdrożenie:☁ Cloud

Przegląd

Gemini Robotics 1.5 to najnowszy model Vision-Language-Action (VLA) Google DeepMind, bedacy bezposrednim rozwinieciem oryginalnego Gemini Robotics. Przetwarza wejscie wizualne (obrazy z kamer robotow) oraz instrukcje tekstowe i generuje na wyjsciu komendy motoryczne sterujace stawami robotow. To kluczowa roznica od modeli VLM/LLM model nie opisuje, co widzi, lecz bezposrednio kontroluje ruch fizyczny.

Model wykazuje uogolnienie na nowe instrukcje, akcje i konteksty wizualne, a jeden model moze dzialac na wielu roznych platformach robotycznych (ALOHA, Bi-arm Franka, humanoid Apptronik Apollo). W tandemie z Gemini Robotics-ER 1.6 tworzy kompletny system do sterowania robotami fizycznymi.

Klasyfikacja
Model multimodalnyBazowy model robotycznyModel wzrok-język-akcja
Rodzina: Gemini
Dostęp i wdrożenie
Hostowane
Chmura
Wagi: Zamknięte
Kluczowe parametry
📏 Kontekst: 32K
📥 Wejście: tekst, obraz
Robotyka
Dexterous manipulationRobot manipulationRobot controlEmbodied task planningVisual groundingBimanual manipulationMotion planning

Specyfikacja techniczna

Okno kontekstowe
32K
tokenów
Modalności
⬇ Wejście (Input)
textimage
⬆ Wyjście (Output)
textaction

Możliwości i zastosowania

Natywne możliwości modelu
Rozumowanie
Zdolność modelu do logicznego wnioskowania i rozwiązywania złożonych problemów.
Kategoria: reasoning
Rozumowanie wieloetapowe
Prowadzenie wieloetapowego toku rozumowania w długich, złożonych zadaniach.
Kategoria: reasoning
Planowanie
Tworzenie i realizacja planów działania dla złożonych zadań.
Kategoria: planning
Rozumienie obrazu
Analiza i interpretacja treści obrazów.
Kategoria: vision
Rozumienie multimodalne
Zdolność modelu do łączenia i interpretowania informacji z więcej niż jednej modalności, np. tekstu i obrazu.
Kategoria: multimodal
Wielojęzyczność
Rozumienie i generowanie tekstu w wielu językach.
Kategoria: language
Robotyka
Dexterous manipulationRobot manipulationRobot controlEmbodied task planningVisual groundingBimanual manipulationMotion planning

Wyniki benchmarków

5 benchmarków
Generalization: In-Distribution (internal)
progress score · progress score, robotic manipulation tasks
0.830-1
📄 https://deepmind.google/models/gemini-robotics/gemini-robotics/
Gemini Robotics 1.5 vs. poprzednie wersje. Wynik 0.83 przewyzsza Gemini Robotics i On-Device.
Generalization: Instruction Generalization (internal)
progress score
0.760-1
📄 https://deepmind.google/models/gemini-robotics/gemini-robotics/
Generalization: Action Generalization (internal)
progress score
0.540-1
📄 https://deepmind.google/models/gemini-robotics/gemini-robotics/
Generalization: Visual Generalization (internal)
progress score
0.810-1
📄 https://deepmind.google/models/gemini-robotics/gemini-robotics/
Generalization: Task Generalization (internal)
progress score
0.700-1
📄 https://deepmind.google/models/gemini-robotics/gemini-robotics/