Powrót do katalogu

Vision-Language-Action

Multimodalne
Architektura VLA łączy modele wizyjno-językowe z predykcją akcji robota. Umożliwia sterowanie robotem na podstawie instrukcji w języku naturalnym i obserwacji środowiska.

Powiązania

Powiązane modele