Gemini Robotics-ER 1.6

1.6 · Rodzina: Gemini

Model Vision-Language (VLM) od Google DeepMind z zaawansowanym rozumowaniem przestrzennym i ucieleśnionym, przeznaczony do zastosowań robotycznych.

⏳ Preview⏳ Ograniczony dostępModel multimodalnyBazowy model robotyczny📁 Gemini

Okno kontekstowe

128K

tokenów

Max output

64 000

tokenów

Data premiery

14 kwietnia 2026

🔬Google DeepMindLab badawczy

Dostęp:APIHostedWdrożenie:☁ Cloud

Przegląd

Gemini Robotics-ER 1.6 (Embodied Reasoning) to model Vision-Language (VLM) opracowany przez Google DeepMind, bazujący na architekturze Gemini 3.0 Flash. Specjalizuje się w rozumowaniu przestrzennym i fizycznym niezbędnym w robotyce — w tym precyzyjnym wskazywaniu obiektów (pointing), planowaniu zadań, wykrywaniu sukcesu wykonania zadania oraz odczytywaniu instrumentów przemysłowych.

Model przetwarza wejścia tekstowe, obrazy, audio i wideo (do 128K tokenów kontekstu) i generuje odpowiedzi tekstowe. Może natywnie wywoływać narzędzia zewnętrzne (Google Search, modele VLA, funkcje zdefiniowane przez użytkownika) oraz łączyć rozumowanie wizualne z wykonaniem kodu (agentic vision). Pełni rolę wysokopoziomowego modułu rozumowania w systemach robotycznych — nie steruje bezpośrednio silnikami robotów.

Klasyfikacja

Model multimodalnyBazowy model robotyczny

Rodzina: Gemini

Zastosowania

Asystent badawczy Automatyzacja procesów

Dostęp i wdrożenie

APIHostowane

Chmura

Wagi: Zamknięte

Kluczowe parametry

📏 Kontekst: 128K

✓ Narzędzia

📥 Wejście: tekst, obraz, audio, wideo

Robotyka

Spatial reasoningScene understandingEmbodied task planningVisual groundingObject affordance understandingSpatial prediction

Specyfikacja techniczna

Okno kontekstowe

128K

tokenów

Max output tokens

64 000

tokenów na odpowiedź

Funkcje:✓ Używanie narzędzi

Modalności

⬇ Wejście (Input)

textimageaudiovideo

⬆ Wyjście (Output)

text

Możliwości i zastosowania

Natywne możliwości modelu

Rozumowanie

Zdolność modelu do logicznego wnioskowania i rozwiązywania złożonych problemów.

Kategoria: reasoning

Rozumowanie wieloetapowe

Prowadzenie wieloetapowego toku rozumowania w długich, złożonych zadaniach.

Kategoria: reasoning

Planowanie

Tworzenie i realizacja planów działania dla złożonych zadań.

Kategoria: planning

Rozumienie obrazu

Analiza i interpretacja treści obrazów.

Kategoria: vision

Rozumienie multimodalne

Zdolność modelu do łączenia i interpretowania informacji z więcej niż jednej modalności, np. tekstu i obrazu.

Kategoria: multimodal

Wywoływanie funkcji

Natywne wsparcie dla ustrukturyzowanego wykorzystania narzędzi, umożliwiające przepływy pracy oparte na agentach.

Kategoria: planning

Wyjście strukturyzowane

Generowanie danych w ustrukturyzowanych formatach, np. JSON.

Kategoria: structured_generation

Rozumienie wideo

Zdolność analizy wideo poprzez przetwarzanie sekwencji klatek.

Kategoria: video

Rozumienie audio

Zdolność modelu do interpretowania dźwięku, mowy, tonów i sygnałów audio.

Kategoria: audio

Robotyka

Spatial reasoningScene understandingEmbodied task planningVisual groundingObject affordance understandingSpatial prediction

Dziedziny zastosowań

Asystent badawczy Automatyzacja procesów

Wyniki benchmarków

2 benchmarki

Instrument Reading (internal, agentic vision disabled)

success rate · agentic vision disabled

86%

📄 https://deepmind.google/blog/gemini-robotics-er-1-6/

Wynik dla Gemini Robotics-ER 1.6 bez agentic vision. Dla porównania: ER 1.5 = 23%, Gemini 3.0 Flash = 67%.

Instrument Reading (internal, agentic vision enabled)

success rate · agentic vision enabled (zoom + code execution)

93%

📄 https://deepmind.google/blog/gemini-robotics-er-1-6/

Wynik z trybem agentic vision łączącym rozumowanie wizualne z wykonaniem kodu.

Architektura techniczna

Rdzeń architektury (Core Architecture)

NMNative Multimodal

Forma modelu (Model Form)

MLMultimodal LLM EAEmbodied AI

Techniki trenowania (Training Techniques)

ITInstruction Tuning

Źródła i powiązane strony

4 źródła

WebGemini Robotics-ER 1.6 — Google DeepMinddeepmind.google BlogGemini Robotics-ER 1.6: Powering real-world robotics tasks through enhanced embodied reasoningdeepmind.google RaportGemini Robotics-ER 1.6 Model Card — Google DeepMinddeepmind.google PaperGemini Robotics: Bringing AI into the Physical World (arXiv:2503.20020)arxiv.org

Przeglądaj powiązane tematy

📁 Gemini 🌐 Asystent badawczy 🌐 Automatyzacja procesów 🧠 Native Multimodal 🧠 Multimodal LLM 🧠 Embodied AI Wszystkie modele multimodal model Wszystkie modele robotics foundation model