Model Vision-Language-Action (VLA) od Google DeepMind zamieniajacy obraz i jezyk na komendy motoryczne dla robotow.
⏳ Preview⏳ Ograniczony dostępModel multimodalnyBazowy model robotycznyModel wzrok-język-akcja📁 Gemini
Okno kontekstowe
32K
tokenów
Data premiery
14 kwietnia 2026
Dostęp:HostedWdrożenie:☁ Cloud
Przegląd
Zastosowania
Dostęp i wdrożenie
Hostowane
Chmura
Wagi: Zamknięte
Kluczowe parametry
📏 Kontekst: 32K
📥 Wejście: tekst, obraz
Robotyka
Dexterous manipulationRobot manipulationRobot controlEmbodied task planningVisual groundingBimanual manipulationMotion planning
Specyfikacja techniczna
Okno kontekstowe
32K
tokenów
Modalności
⬇ Wejście (Input)
textimage
⬆ Wyjście (Output)
textaction
Możliwości i zastosowania
Natywne możliwości modelu
Rozumowanie
Zdolność modelu do logicznego wnioskowania i rozwiązywania złożonych problemów.
Kategoria: reasoning
Rozumowanie wieloetapowe
Prowadzenie wieloetapowego toku rozumowania w długich, złożonych zadaniach.
Kategoria: reasoning
Planowanie
Tworzenie i realizacja planów działania dla złożonych zadań.
Kategoria: planning
Rozumienie obrazu
Analiza i interpretacja treści obrazów.
Kategoria: vision
Rozumienie multimodalne
Zdolność modelu do łączenia i interpretowania informacji z więcej niż jednej modalności, np. tekstu i obrazu.
Kategoria: multimodal
Wielojęzyczność
Rozumienie i generowanie tekstu w wielu językach.
Kategoria: language
Robotyka
Dexterous manipulationRobot manipulationRobot controlEmbodied task planningVisual groundingBimanual manipulationMotion planning
Dziedziny zastosowań
Wyniki benchmarków
5 benchmarków
Generalization: In-Distribution (internal)
progress score · progress score, robotic manipulation tasks
0.830-1
📄 https://deepmind.google/models/gemini-robotics/gemini-robotics/
Gemini Robotics 1.5 vs. poprzednie wersje. Wynik 0.83 przewyzsza Gemini Robotics i On-Device.
Generalization: Instruction Generalization (internal)
progress score
0.760-1
📄 https://deepmind.google/models/gemini-robotics/gemini-robotics/
Generalization: Action Generalization (internal)
progress score
0.540-1
📄 https://deepmind.google/models/gemini-robotics/gemini-robotics/
Generalization: Visual Generalization (internal)
progress score
0.810-1
📄 https://deepmind.google/models/gemini-robotics/gemini-robotics/
Generalization: Task Generalization (internal)
progress score
0.700-1
📄 https://deepmind.google/models/gemini-robotics/gemini-robotics/
