Gemini Robotics 1.5
MultimodalMultimodalrobotics_foundationrobotics_foundation
Model Vision-Language-Action (VLA) od Google DeepMind zamieniajacy obraz i jezyk na komendy motoryczne dla robotow.
Specyfikacja techniczna
Okno kontekstowe
Narzędzia
Fine-tuning
Dostęp do wag
Ostatnia aktualizacja: 2 maj 2026
Modalności
Wejście
Text
Image
Wyjście
Text
action
Możliwości
6Reasoning★
Rozumowanie
Multi-step reasoning★
Rozumowanie
Planning★
Planowanie
Image understanding★
Wizja
Multimodal understanding★
Multimodalność
Multilingual★
Język