Robocikowo>ROBOCIKOWO
Gemini Robotics-ER 1.6

Gemini Robotics-ER 1.6

1.6 · Rodzina: Gemini
Model Vision-Language (VLM) od Google DeepMind z zaawansowanym rozumowaniem przestrzennym i ucieleśnionym, przeznaczony do zastosowań robotycznych.
⏳ Preview⏳ Ograniczony dostępModel multimodalnyBazowy model robotyczny📁 Gemini
Okno kontekstowe
128K
tokenów
Max output
64 000
tokenów
Data premiery
14 kwietnia 2026
Dostęp:APIHostedWdrożenie:☁ Cloud

Przegląd

Gemini Robotics-ER 1.6 (Embodied Reasoning) to model Vision-Language (VLM) opracowany przez Google DeepMind, bazujący na architekturze Gemini 3.0 Flash. Specjalizuje się w rozumowaniu przestrzennym i fizycznym niezbędnym w robotyce — w tym precyzyjnym wskazywaniu obiektów (pointing), planowaniu zadań, wykrywaniu sukcesu wykonania zadania oraz odczytywaniu instrumentów przemysłowych.

Model przetwarza wejścia tekstowe, obrazy, audio i wideo (do 128K tokenów kontekstu) i generuje odpowiedzi tekstowe. Może natywnie wywoływać narzędzia zewnętrzne (Google Search, modele VLA, funkcje zdefiniowane przez użytkownika) oraz łączyć rozumowanie wizualne z wykonaniem kodu (agentic vision). Pełni rolę wysokopoziomowego modułu rozumowania w systemach robotycznych — nie steruje bezpośrednio silnikami robotów.

Klasyfikacja
Model multimodalnyBazowy model robotyczny
Rodzina: Gemini
Dostęp i wdrożenie
APIHostowane
Chmura
Wagi: Zamknięte
Kluczowe parametry
📏 Kontekst: 128K
Narzędzia
📥 Wejście: tekst, obraz, audio, wideo
Robotyka
Spatial reasoningScene understandingEmbodied task planningVisual groundingObject affordance understandingSpatial prediction

Specyfikacja techniczna

Okno kontekstowe
128K
tokenów
Max output tokens
64 000
tokenów na odpowiedź
Funkcje:Używanie narzędzi
Modalności
⬇ Wejście (Input)
textimageaudiovideo
⬆ Wyjście (Output)
text

Możliwości i zastosowania

Natywne możliwości modelu
Rozumowanie
Zdolność modelu do logicznego wnioskowania i rozwiązywania złożonych problemów.
Kategoria: reasoning
Rozumowanie wieloetapowe
Prowadzenie wieloetapowego toku rozumowania w długich, złożonych zadaniach.
Kategoria: reasoning
Planowanie
Tworzenie i realizacja planów działania dla złożonych zadań.
Kategoria: planning
Rozumienie obrazu
Analiza i interpretacja treści obrazów.
Kategoria: vision
Rozumienie multimodalne
Zdolność modelu do łączenia i interpretowania informacji z więcej niż jednej modalności, np. tekstu i obrazu.
Kategoria: multimodal
Wywoływanie funkcji
Natywne wsparcie dla ustrukturyzowanego wykorzystania narzędzi, umożliwiające przepływy pracy oparte na agentach.
Kategoria: planning
Wyjście strukturyzowane
Generowanie danych w ustrukturyzowanych formatach, np. JSON.
Kategoria: structured_generation
Rozumienie wideo
Zdolność analizy wideo poprzez przetwarzanie sekwencji klatek.
Kategoria: video
Rozumienie audio
Zdolność modelu do interpretowania dźwięku, mowy, tonów i sygnałów audio.
Kategoria: audio
Robotyka
Spatial reasoningScene understandingEmbodied task planningVisual groundingObject affordance understandingSpatial prediction

Wyniki benchmarków

2 benchmarki
Instrument Reading (internal, agentic vision disabled)
success rate · agentic vision disabled
86%
📄 https://deepmind.google/blog/gemini-robotics-er-1-6/
Wynik dla Gemini Robotics-ER 1.6 bez agentic vision. Dla porównania: ER 1.5 = 23%, Gemini 3.0 Flash = 67%.
Instrument Reading (internal, agentic vision enabled)
success rate · agentic vision enabled (zoom + code execution)
93%
📄 https://deepmind.google/blog/gemini-robotics-er-1-6/
Wynik z trybem agentic vision łączącym rozumowanie wizualne z wykonaniem kodu.

Architektura techniczna

Rdzeń architektury (Core Architecture)
Forma modelu (Model Form)
Techniki trenowania (Training Techniques)