Robotyka

VLA+

2026Eksperymentalny

VLA+ to rozszerzenie modeli Vision-Language-Action o dodatkowe modalności (głównie dotyk) i ciągłe douczanie z poprawek człowieka po wdrożeniu.

Kluczowa innowacja

Rozszerzenie paradygmatu VLA o modalności dotykowe (tactile sensing) oraz online learning z poprawek człowieka, dzięki czemu robot adaptuje się również po wdrożeniu, a nie tylko podczas treningu.

Kategoria

Robotyka

Poziom abstrakcji

Paradygmat

Poziom operacji

Sterowanie robotemSystemModel

Zastosowania

Bimanualna manipulacja w humanoidach (np. pakowanie skrzynki narzędziowej, wkładanie wtyczek)Zadania z ciasnymi tolerancjami i potrzebą feedbacku dotykowego (insercja, zaciskanie złączy)Domowa robotyka z manipulacją obiektów odkształcalnychAdaptacja polityki w fabryce po wdrożeniu, bez konieczności pełnego retreningu

Jak działa

VLA+ zachowuje rdzeń VLA (vision-language backbone + interfejs akcji), ale wstawia dwa dodatkowe komponenty: (1) wejście dotykowe (i opcjonalnie siłowe) jest tokenizowane i fuzowane z reprezentacją wizyjno-językową, (2) podczas wdrożenia uruchomiona jest pętla online: gdy operator skoryguje akcję (teleoperacja, mysz 3D), korekta zostaje zapisana jako sygnał uczący i policy jest aktualizowana inkrementalnie, bez pełnego retreningu. Trening offline łączy dane z prawdziwych robotów, syntetyczne trajektorie z symulatora fizyki (np. Isaac Sim) oraz korpus VQA do ugruntowania percepcji i języka.

Rozwiązany problem

Klasyczne VLA są zamknięte na nowe modalności sensoryczne (głównie dotyk i siła) i nie potrafią uczyć się dalej po wdrożeniu — każdy nowy przypadek brzegowy wymaga retreningu albo dużej kampanii zbierania danych. VLA+ adresuje obie luki naraz.

Implementacja

Pułapki implementacyjne

Brak web-skalowych korpusów dotykowychWysoka

W odróżnieniu od danych obraz–tekst, dane tactile-embodied muszą być zbierane na realnych robotach lub generowane w symulacji — to wąskie gardło skali.

Dryf polityki przy online learningŚrednia

Inkrementalne uczenie z poprawek człowieka grozi katastroficznym zapominaniem lub overfittingiem do ostatnich epizodów; wymaga regularizacji i kuracji bufora replay.