Model VLA od Google DeepMind zoptymalizowany do dzialania lokalnie na urzadzeniach robotycznych z niskim opoznieniem.
Okno kontekstowe
1088 tokens
tokenów
Data premiery
14 kwietnia 2026
Dostęp:Hostedon-deviceWdrożenie:Edge☁ Cloud
Przegląd
Zastosowania
Dostęp i wdrożenie
Hostowaneon-device
EdgeChmura
Wagi: Zamknięte
Kluczowe parametry
📏 Kontekst: 1088 tokens
✓ Fine-tuning
📥 Wejście: tekst, obraz, action
Robotyka
Dexterous manipulationRobot manipulationRobot controlMotion planning
Specyfikacja techniczna
Okno kontekstowe
1088 tokens
tokenów
Funkcje:✓ Fine-tuning
Modalności
⬇ Wejście (Input)
textimageaction
⬆ Wyjście (Output)
action
Możliwości i zastosowania
Natywne możliwości modelu
Rozumienie obrazu
Analiza i interpretacja treści obrazów.
Kategoria: vision
Rozumienie multimodalne
Zdolność modelu do łączenia i interpretowania informacji z więcej niż jednej modalności, np. tekstu i obrazu.
Kategoria: multimodal
Robotyka
Dexterous manipulationRobot manipulationRobot controlMotion planning
Dziedziny zastosowań
