VLA+ zachowuje rdzeń VLA (vision-language backbone + interfejs akcji), ale wstawia dwa dodatkowe komponenty: (1) wejście dotykowe (i opcjonalnie siłowe) jest tokenizowane i fuzowane z reprezentacją wizyjno-językową, (2) podczas wdrożenia uruchomiona jest pętla online: gdy operator skoryguje akcję (teleoperacja, mysz 3D), korekta zostaje zapisana jako sygnał uczący i policy jest aktualizowana inkrementalnie, bez pełnego retreningu. Trening offline łączy dane z prawdziwych robotów, syntetyczne trajektorie z symulatora fizyki (np. Isaac Sim) oraz korpus VQA do ugruntowania percepcji i języka.
Klasyczne VLA są zamknięte na nowe modalności sensoryczne (głównie dotyk i siła) i nie potrafią uczyć się dalej po wdrożeniu — każdy nowy przypadek brzegowy wymaga retreningu albo dużej kampanii zbierania danych. VLA+ adresuje obie luki naraz.
W odróżnieniu od danych obraz–tekst, dane tactile-embodied muszą być zbierane na realnych robotach lub generowane w symulacji — to wąskie gardło skali.
Inkrementalne uczenie z poprawek człowieka grozi katastroficznym zapominaniem lub overfittingiem do ostatnich epizodów; wymaga regularizacji i kuracji bufora replay.