Robocikowo>ROBOCIKOWO
Gemini Robotics On-Device

Gemini Robotics On-Device

Rodzina: Gemini
Model VLA od Google DeepMind zoptymalizowany do dzialania lokalnie na urzadzeniach robotycznych z niskim opoznieniem.
⏳ Preview⏳ Ograniczony dostępBazowy model robotycznyModel wzrok-język-akcja📁 Gemini
Okno kontekstowe
1088 tokens
tokenów
Data premiery
14 kwietnia 2026
Dostęp:Hostedon-deviceWdrożenie:Edge☁ Cloud

Przegląd

Gemini Robotics On-Device to model Vision-Language-Action (VLA) zoptymalizowany do uruchamiania bezposrednio na sprzecie robotycznym, bez koniecznosci ciaglego polaczenia z chmura. Charakteryzuje sie bardzo malym oknem kontekstu (1088 tokenow), co jest pochodna optymalizacji pod rezyim czasu rzeczywistego i niskie opoznienie.

Jest to pierwszy model VLA Google DeepMind udostepniony do fine-tuningu przez programistow robotyki za posrednictwem Gemini Robotics SDK. Przyjmuje na wejsciu obrazy, tekst i komendy akcji, a na wyjsciu generuje komendy akcji sterujace robotem. W odroznieniu od Gemini Robotics 1.5, nie generuje wyjscia tekstowego.

Klasyfikacja
Bazowy model robotycznyModel wzrok-język-akcja
Rodzina: Gemini
Dostęp i wdrożenie
Hostowaneon-device
EdgeChmura
Wagi: Zamknięte
Kluczowe parametry
📏 Kontekst: 1088 tokens
✓ Fine-tuning
📥 Wejście: tekst, obraz, action
Robotyka
Dexterous manipulationRobot manipulationRobot controlMotion planning

Specyfikacja techniczna

Okno kontekstowe
1088 tokens
tokenów
Funkcje:Fine-tuning
Modalności
⬇ Wejście (Input)
textimageaction
⬆ Wyjście (Output)
action

Możliwości i zastosowania

Natywne możliwości modelu
Rozumienie obrazu
Analiza i interpretacja treści obrazów.
Kategoria: vision
Rozumienie multimodalne
Zdolność modelu do łączenia i interpretowania informacji z więcej niż jednej modalności, np. tekstu i obrazu.
Kategoria: multimodal
Robotyka
Dexterous manipulationRobot manipulationRobot controlMotion planning
Dziedziny zastosowań