Robotyka

VLA

Model wielomodalny łączący percepcję wizualną, język i sterowanie akcjami.

Kluczowa innowacja

Rozszerza pretrenowane modele wizyjno-językowe (VLM) o zdolność do bezpośredniego generowania tokenów akcji robotycznych przez wspólne dostrajanie na danych internetowych i trajektoriach robota — umożliwiając przenoszenie wiedzy ze świata na sterowanie fizyczne bez osobnych modułów planowania i sterowania.

Kategoria

Robotyka

Poziom abstrakcji

Paradigm

Poziom operacji

ModelTreningInferencjaSterowanie robotemSystem

Zastosowania

Robotyka przemysłowa i manipulacja obiektamiRoboty domowe wykonujące polecenia językoweTeleoperacja wspomagana AIAutonomiczne pojazdy z interfejsem językowymBadania nad uogólnioną inteligencją robotyczną

Jak działa

Model przyjmuje dane wizualne (obrazy z kamer) i instrukcje językowe, a produkuje tokeny akcji (np. pozycje stawów robota). Architektura opiera się na transformerze multimodalnym trenowanym na parach obserwacja-instrukcja-akcja.

Rozwiązany problem

Roboty wymagają połączenia percepcji wzrokowej, rozumienia języka naturalnego i planowania akcji motorycznych w jednym systemie. VLA integruje te trzy modalności w zunifikowanym modelu.

Komponenty

Enkoder wizyjnyTokenizacja wejścia wizualnego — konwersja obrazów obserwacyjnych na reprezentacje wektorowe kompatybilne z backbonem językowym

Przetwarza surowe obrazy RGB z kamer robotycznych na sekwencje tokenów wizyjnych. Typowo oparty na Vision Transformer (ViT) lub sieci konwolucyjnej. W nowszych VLA stosuje się fuzję cech z wielu backbonów wizyjnych (np. DINOv2 + SigLIP w OpenVLA) dla lepszego rozumienia przestrzennego i semantycznego.

INWsadowe obrazy RGB z kamery robotycznej (lub wielu kamer). Typowo 224×224 lub 336×336 pikseli.

OUTSekwencja N_vis tokenów wizyjnych (osadzeń patchy obrazu) w przestrzeni backbonu językowego.

ViT z CLIPEnkoder wizyjny CLIP trenowany na wyrównaniu tekst-obraz — stosowany w RT-2 (PaLI-X).

DINOv2 + SigLIP (fuzja)Dwa backbony wizyjne łączone przez projektor — stosowane w OpenVLA dla wieloskalowej reprezentacji wizualnej.

EfficientNet + FiLMLekki enkoder CNN z kondycjonowaniem tekstowym przez Feature-wise Linear Modulation — stosowany w RT-1.

Oficjalna

Backbone językowy (LLM/VLM)Rozumienie instrukcji, rozumowanie kontekstowe i generowanie tokenów akcji na podstawie wejść wizyjnych i językowych

Duży model językowy lub model wizyjno-językowy stanowiący rdzeń architektury VLA. Przetwarza sekwencję tokenów złożoną z: tokenów wizyjnych z enkodera, tokenów instrukcji tekstowej oraz tokenów historii działań. Generuje sekwencję wyjściową obejmującą tokeny akcji.

INSkonkatenowana sekwencja tokenów: osadzenia wizyjne + tokeny tekstowe instrukcji + opcjonalne tokeny propriocepcji. Długość zależy od liczby klatek i długości instrukcji.

OUTSekwencja tokenów wyjściowych: tokeny akcji (dyskretne lub ciągłe) reprezentujące docelowe wartości sterowania robota.

PaLM-E (12B)Ucieleśniony multimodalny LLM — jeden z backbonów w RT-2.

PaLI-X (5B/55B)Wielojęzyczny model wizyjno-językowy — główny backbone RT-2.

LLaMA 2 (7B)Otwarty LLM — backbone OpenVLA.

Gemma-2BLekki LLM Google — backbone π0 (Physical Intelligence).

Oficjalna

Dekoder akcji / głowica wyjścia akcjiKonwersja wyjść modelu językowego na wykonywalne sygnały sterowania robotem (prędkości, pozycje, momenty sił)

Komponent odpowiedzialny za przekształcenie reprezentacji wyjściowej backbonu w konkretne sygnały sterowania robotem. W podejściu tokenizowanym: tokeny akcji są mapowane na dyskretne wartości binów akcji (np. 256 binów na wymiar). W podejściu ciągłym: stosuje się głowicę dyfuzyjną lub flow-matching generującą ciągłe wektory akcji.

OUTWektor akcji: typowo 6–7 wymiarowy (XYZ pozycja końcówki, XYZ rotacja, stan chwytaka) lub sekwencja tokenów akcji dekodowana na wartości ciągłe.

Dyskretne tokeny akcjiPrzestrzeń akcji dyskretyzowana na biny; każdy wymiar reprezentowany jako token tekstowy — stosowane w RT-2 i OpenVLA.

Głowica dyfuzyjna / flow-matchingCiągłe generowanie akcji przez iteracyjne odszumianie lub flow-matching dla lepszej precyzji i płynności ruchów — stosowane w π0.

Głowica MLPProsta sieć MLP mapująca osadzenia LLM na ciągłe wartości akcji — stosowane w lekkich VLA i modelach z oddzielonym planowaniem i wykonaniem.

Oficjalna

Projektor modaliości (Vision-Language Projector)Wyrównanie przestrzeni cech wizyjnych i językowych — umożliwia LLM przetwarzanie osadzeń wizyjnych jak tokenów tekstowych

Warstwa liniowa lub MLP mapująca wymiar wyjścia enkodera wizyjnego na wymiar przestrzeni tokenów backbonu językowego (d_model). Umożliwia integrację tokenów wizyjnych z tokenami tekstowymi w jednej sekwencji przetwarzanej przez LLM.

Oficjalna

Implementacja

Implementacje referencyjne

OpenVLA (Stanford)

Python · Stanford / Moo Jin Kim i in.

Oficjalna

LeRobot (Hugging Face)

Python · Hugging Face

SmolVLA (Hugging Face)

Python · Hugging Face

Pułapki implementacyjne

Zbyt niska częstotliwość sterowania dla zadań wymagających precyzjiWysoka

Modele VLA oparte na dużych LLM generują akcje z częstotliwością 1–6 Hz, co jest niewystarczające dla zadań wymagających płynnej manipulacji (składanie, wkręcanie, montaż) typowo wymagających >50 Hz. Niska częstotliwość prowadzi do drgań, opóźnień i niestabilności ruchu.

Rozwiązanie:Stosuj architekturę dual-system z szybkim modułem akcji (flow-matching, dyfuzja). Implementuj predykcję sekwencji akcji (action chunking) — model generuje N kroków naprzód i wykonuje je sekwencyjnie bez kolejnych zapytań LLM.

Rozbieżność między treningiem a wdrożeniem (distribution shift)Wysoka

VLA trenowane na demonstracjach zbieranych w specyficznych warunkach (oświetlenie, tło, kamera, konfiguracja robota) źle generalizują do nowych środowisk. Zmiana kamery, kąta, tła lub robota może drastycznie obniżyć skuteczność.

Rozwiązanie:Zbieraj dane treningowe z augmentacją wizualną (zmiana oświetlenia, tła, kąta). Stosuj PEFT (LoRA) do szybkiego dostrajania na nowe środowisko z minimalną liczbą demonstracji. Używaj zbiorów multi-embodiment (Open X-Embodiment) dla lepszej generalizacji.

Ograniczenia dyskretyzacji akcji — utrata precyzjiŚrednia

Binowanie przestrzeni akcji na 256 dyskretnych wartości (jak w RT-2 i OpenVLA) wprowadza błąd kwantyzacji, szczególnie widoczny przy zadaniach wymagających submilimetrowej precyzji. Konwersja ciągłych trajektorii na tokeny może tracić ważne detale motoryczne.

Rozwiązanie:Stosuj ciągłe dekodowanie akcji przez dyfuzję lub flow-matching zamiast dyskretnych tokenów dla zadań wymagających precyzji. Alternatywnie zwiększaj liczbę binów lub stosuj adaptacyjną dyskretyzację.

Kompromis między katastroficznym zapominaniem a transferem wiedzyWysoka

Przy dostrajaniu VLM na danych robotycznych model może tracić ogólne zdolności językowe i wizyjne pretrainowanego VLM (catastrophic forgetting). RT-2 rozwiązuje to przez co-fine-tuning na danych robotycznych i internetowych jednocześnie — pominięcie tej mieszanki degraduje model.

Rozwiązanie:Stosuj co-fine-tuning z mieszaniem danych robotycznych i internetowych w odpowiednich proporcjach. Przy PEFT (LoRA) mrożenie backbonu LLM zachowuje wiedzę VLM przy jednoczesnym uczeniu generowania akcji.

Wymagania sprzętowe uniemożliwiające deployment on-robotWysoka

Modele VLA 7B–55B wymagają GPU klasy A100 (40–80 GB VRAM) lub zewnętrznego serwera GPU. Bezpośrednie wdrożenie na robocie z ograniczonymi zasobami obliczeniowymi (Jetson Orin, CPU) jest niemożliwe bez kwantyzacji lub destylacji.

Rozwiązanie:Stosuj kwantyzację INT4/INT8 (bez utraty skuteczności wg OpenVLA). Trenuj mniejsze modele (SmolVLA 450M). Stosuj architekturę dual-system z lekkim modułem akcji wdrożonym on-robot i ciężkim VLM na zdalnym serwerze.

Ewolucja

Oryginalny paper · 2023 · CoRL 2023 (Conference on Robot Learning, PMLR 229) · Anthony Brohan

RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

Anthony Brohan, Noah Brown, Justice Carbajal, Yevgen Chebotar, Xi Chen, Danny Driess, Chelsea Finn, Karol Hausman, Brian Ichter, Sergey Levine, Igor Mordatch, Karl Pertsch, Pierre Sermanet, Ted Xiao, Tianhe Yu, Brianna Zitkovich

2022

RT-1 — Robotics Transformer dla sterowania w czasie rzeczywistym

Punkt przełomowy

Brohan i in. (Google) publikują RT-1 — Transformer trenowany na 130k demonstracji robotycznych z warunkowym wejściem tekstowym. Pierwszy model na dużą skalę łączący wizję, język i sterowanie robotem, ale bez pretrainingu na danych internetowych.

RT-1: Robotics Transformer for Real-World Control at Scale (artykuł)

2023

RT-2 — pierwszy model VLA z transferem wiedzy z internetu do sterowania robotem

Punkt przełomowy

Zitkovich, Brohan i in. (Google DeepMind) formalizują paradygmat VLA przez co-fine-tuning PaLI-X i PaLM-E na zadaniach robotycznych i internetowych. Akcje kodowane jako tokeny tekstowe. Ukucie terminu 'vision-language-action model'. Demonstracja emergentnego rozumowania na nowych zadaniach bez dodatkowych danych.

RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control (artykuł)

2023

Open X-Embodiment — wieloplatformowy zbiór danych robotycznych

Punkt przełomowy

Współpraca 21 instytucji tworzy Open X-Embodiment — zbiór ~1M trajektorii z 22 typów robotów. Umożliwia trening VLA na zróżnicowanych embodiment i zadaniach, fundamentalny dla RT-X i OpenVLA.

Open X-Embodiment: Robotic Learning Datasets and RT-X Models (artykuł)

2024

OpenVLA — open-source 7B-parametrowy VLA

Punkt przełomowy

Kim i in. (Stanford) publikują OpenVLA — otwartoźródłowy 7B VLA zbudowany na LLaMA 2 + DINOv2 + SigLIP, trenowany na 970k trajektoriach Open X-Embodiment. Przewyższa zamknięty RT-2-X (55B) przy 7× mniejszej liczbie parametrów. Pierwsza otwarta platforma dla badań VLA z PEFT i kwantyzacją.

OpenVLA: An Open-Source Vision-Language-Action Model (artykuł)

2024

π0 (Physical Intelligence) — VLA z ciągłym wyjściem dyfuzyjnym

Punkt przełomowy

Black i in. (Physical Intelligence) publikują π0 — VLA z backbonem Gemma-2B i głowicą flow-matching zamiast dyskretnych tokenów, osiągając wyższą precyzję motoryczną dla zadań wymagających dexterity (składanie ubrań, mycie naczyń).

π0: A Vision-Language-Action Flow Model for General Robot Control (artykuł)

2025

Dual-system VLA — Helix (Figure AI) i Groot N1 (NVIDIA)

Architektura dwumodelowa: wolniejszy VLM jako planista wysokopoziomowy + szybki moduł generowania akcji dla sterowania o wysokiej częstotliwości. Figure AI (Helix) i NVIDIA (Groot N1) demonstrują dual-system VLA dla humanoidów operujących w czasie rzeczywistym.

VLA

Jak działa

Rozwiązany problem

Komponenty

Implementacja

Ewolucja

Wąskie gardło obliczeniowe

Paradygmat wykonania

Równoległość

Hiperparametry (konfigurowalne osie)

Wymagania sprzętowe