Model przyjmuje dane wizualne (obrazy z kamer) i instrukcje językowe, a produkuje tokeny akcji (np. pozycje stawów robota). Architektura opiera się na transformerze multimodalnym trenowanym na parach obserwacja-instrukcja-akcja.
Roboty wymagają połączenia percepcji wzrokowej, rozumienia języka naturalnego i planowania akcji motorycznych w jednym systemie. VLA integruje te trzy modalności w zunifikowanym modelu.
Przetwarza surowe obrazy RGB z kamer robotycznych na sekwencje tokenów wizyjnych. Typowo oparty na Vision Transformer (ViT) lub sieci konwolucyjnej. W nowszych VLA stosuje się fuzję cech z wielu backbonów wizyjnych (np. DINOv2 + SigLIP w OpenVLA) dla lepszego rozumienia przestrzennego i semantycznego.
Oficjalna
Duży model językowy lub model wizyjno-językowy stanowiący rdzeń architektury VLA. Przetwarza sekwencję tokenów złożoną z: tokenów wizyjnych z enkodera, tokenów instrukcji tekstowej oraz tokenów historii działań. Generuje sekwencję wyjściową obejmującą tokeny akcji.
Oficjalna
Komponent odpowiedzialny za przekształcenie reprezentacji wyjściowej backbonu w konkretne sygnały sterowania robotem. W podejściu tokenizowanym: tokeny akcji są mapowane na dyskretne wartości binów akcji (np. 256 binów na wymiar). W podejściu ciągłym: stosuje się głowicę dyfuzyjną lub flow-matching generującą ciągłe wektory akcji.
Oficjalna
Warstwa liniowa lub MLP mapująca wymiar wyjścia enkodera wizyjnego na wymiar przestrzeni tokenów backbonu językowego (d_model). Umożliwia integrację tokenów wizyjnych z tokenami tekstowymi w jednej sekwencji przetwarzanej przez LLM.
Oficjalna
Modele VLA oparte na dużych LLM generują akcje z częstotliwością 1–6 Hz, co jest niewystarczające dla zadań wymagających płynnej manipulacji (składanie, wkręcanie, montaż) typowo wymagających >50 Hz. Niska częstotliwość prowadzi do drgań, opóźnień i niestabilności ruchu.
VLA trenowane na demonstracjach zbieranych w specyficznych warunkach (oświetlenie, tło, kamera, konfiguracja robota) źle generalizują do nowych środowisk. Zmiana kamery, kąta, tła lub robota może drastycznie obniżyć skuteczność.
Binowanie przestrzeni akcji na 256 dyskretnych wartości (jak w RT-2 i OpenVLA) wprowadza błąd kwantyzacji, szczególnie widoczny przy zadaniach wymagających submilimetrowej precyzji. Konwersja ciągłych trajektorii na tokeny może tracić ważne detale motoryczne.
Przy dostrajaniu VLM na danych robotycznych model może tracić ogólne zdolności językowe i wizyjne pretrainowanego VLM (catastrophic forgetting). RT-2 rozwiązuje to przez co-fine-tuning na danych robotycznych i internetowych jednocześnie — pominięcie tej mieszanki degraduje model.
Modele VLA 7B–55B wymagają GPU klasy A100 (40–80 GB VRAM) lub zewnętrznego serwera GPU. Bezpośrednie wdrożenie na robocie z ograniczonymi zasobami obliczeniowymi (Jetson Orin, CPU) jest niemożliwe bez kwantyzacji lub destylacji.
Brohan i in. (Google) publikują RT-1 — Transformer trenowany na 130k demonstracji robotycznych z warunkowym wejściem tekstowym. Pierwszy model na dużą skalę łączący wizję, język i sterowanie robotem, ale bez pretrainingu na danych internetowych.
Zitkovich, Brohan i in. (Google DeepMind) formalizują paradygmat VLA przez co-fine-tuning PaLI-X i PaLM-E na zadaniach robotycznych i internetowych. Akcje kodowane jako tokeny tekstowe. Ukucie terminu 'vision-language-action model'. Demonstracja emergentnego rozumowania na nowych zadaniach bez dodatkowych danych.
Współpraca 21 instytucji tworzy Open X-Embodiment — zbiór ~1M trajektorii z 22 typów robotów. Umożliwia trening VLA na zróżnicowanych embodiment i zadaniach, fundamentalny dla RT-X i OpenVLA.
Kim i in. (Stanford) publikują OpenVLA — otwartoźródłowy 7B VLA zbudowany na LLaMA 2 + DINOv2 + SigLIP, trenowany na 970k trajektoriach Open X-Embodiment. Przewyższa zamknięty RT-2-X (55B) przy 7× mniejszej liczbie parametrów. Pierwsza otwarta platforma dla badań VLA z PEFT i kwantyzacją.
Black i in. (Physical Intelligence) publikują π0 — VLA z backbonem Gemma-2B i głowicą flow-matching zamiast dyskretnych tokenów, osiągając wyższą precyzję motoryczną dla zadań wymagających dexterity (składanie ubrań, mycie naczyń).
Architektura dwumodelowa: wolniejszy VLM jako planista wysokopoziomowy + szybki moduł generowania akcji dla sterowania o wysokiej częstotliwości. Figure AI (Helix) i NVIDIA (Groot N1) demonstrują dual-system VLA dla humanoidów operujących w czasie rzeczywistym.
Typowe modele VLA (7B–55B parametrów) generują tokeny akcji z częstotliwością 1–6 Hz na GPU klasy GPU A100/RTX 4090, co jest niewystarczające dla zadań wymagających kontroli o wysokiej częstotliwości (np. manipulacja dwuręczna > 50 Hz). Konieczność osadzenia dużego modelu na robocie lub łącze sieciowe do serwera GPU generuje dodatkowe opóźnienie.
Standardowe VLA (RT-2, OpenVLA) używają gęstego backbonu Transformera przetwarzającego wszystkie tokeny (wizualne + językowe + akcji) przez wszystkie warstwy. Brak routingu lub rzadkiej aktywacji — kontrast z wariantami MoE-VLA proponowanymi w późniejszych pracach.
Trening jest w pełni równoległy across_tokens (przetwarzanie pełnych trajektorii jako sekwencji tokenów wizyjno-językowych). Inferencja jest sekwencyjna per token akcji, ale przetwarzanie wizualne i lingwistyczne (prefill) jest równoległe.
Wybór pretrenowanego VLM jako podstawy VLA. Determinuje zdolności rozumowania, rozmiar modelu i wymagania sprzętowe.
Sposób kodowania akcji robotycznych przez model: tokeny dyskretne (biny) lub ciągłe wyjście (dyfuzja, flow-matching).
Proporcja danych robotycznych (trajektorie z demonstracji) do danych internetowych (zadania wizyjno-językowe). Wpływa na równowagę między rozumieniem języka a generalizacją motoryczną.
Częstotliwość generowania i wykonywania akcji przez VLA. Ograniczona prędkością inferencji modelu i architekturą systemu (single-model vs. dual-system).
Czy VLA jest pojedynczym modelem end-to-end (single-model) czy układem dwumodelowym (dual-system) z oddzielonym planowaniem i wykonaniem.
Modele VLA oparte na dużych LLM (7B–55B parametrów) wymagają GPU z tensor cores dla efektywnej inferencji. Trening wymaga klastrów GPU klasy A100/H100 (OpenVLA: 64×A100 przez 14 dni). Inferencja w czasie rzeczywistym na robocie: minimum RTX 4090 (6 Hz dla modelu 7B).
Google DeepMind trenowało RT-2 (PaLM-E, PaLI-X backbone) na TPU. TPU v4/v5 efektywnie obsługują operacje macierzowe LLM w VLA.