Sterowanie · Sterowanie i planowanie

OpenVLA

OpenVLA-mini (4 GB)·Stanford University

Aktywny Open source Dostępne API

KATEGORIASterowanie · Sterowanie i planowanie

GOTOWOŚĆTRL 6

SKALA ADOPCJIBadania / prototyp

LICENCJEMIT

PIERWSZE WYDANIE2024

**OpenVLA** to pierwsza w pełni open-source replikacja architektury RT-2, ogłoszona w czerwcu 2024 r. (paper 'OpenVLA: An Open-Source Vision-Language-Action Model', Kim et al., arXiv:2406.09246). Powstała we współpracy Stanford AI Lab, UC Berkeley (Robot Learning Lab), Google DeepMind, Toyota Research Institute, MIT i Physical Intelligence. OpenVLA wypełnia lukę po zamkniętym RT-2 — udostępniając zarówno **wagi modelu**, **kod treningu**, **fine-tuning recipes**, jak i **kompletny pipeline danych**.

Architektura: ~**7B parametrów** zbudowane z trzech komponentów. (1) **Vision encoder** — fuzja DINOv2 (semantic features) + SigLIP (CLIP-style alignment), oba ViT-L/14. (2) **LLM backbone** — Llama 2 7B. (3) **Action head** — dyskretyzacja akcji do 256 binów per wymiar (jak w RT-2), prediction next-token nad action tokens.

Dane treningowe: ~970 000 demonstracji z **Open X-Embodiment** (Google DeepMind, 21 instytucji), pokrywające 22 robotów (Franka, UR5, WidowX, Sawyer, Google Robot itd.) i ~500 zadań. Czas treningu: 8 dni na 64× A100 80 GB.

Wyniki: OpenVLA osiąga **+16,5 pp success rate** vs. RT-2-X (55B) w out-of-distribution generalization tasks — pomimo 8× mniejszej liczby parametrów. Fine-tuning na własnych zbiorach (LoRA-style) zajmuje 10-20 godzin na 1× A100 i adaptuje model do nowego robota z 100-500 demonstracjami.

Ekosystem: pełna integracja z **HuggingFace Transformers** (`openvla/openvla-7b`), wsparcie dla 4-bit quantization (bitsandbytes), kompatybilność z PyTorch 2.0+. Wpływ: OpenVLA stał się **de facto baseline VLA** w akademii — bazą wszystkich kolejnych prac (CogACT, TraceVLA, RoboFlamingo). Reproducibility: pełne checkpointy, datasets indices i train scripts.

Dokumentacja

Typ i role

Typy oprogramowania

Model VLA / Foundation ModelRuntimeSDK

Runtime

Runtime to środowisko lub warstwa uruchomieniowa wykorzystywana do wykonywania kodu, ładowania bibliotek, obsługi zależności i działania aplikacji lub usług w czasie rzeczywistym albo w czasie pracy systemu.

SDK

SDK (Software Development Kit) to zestaw bibliotek, interfejsów, narzędzi i dokumentacji przeznaczonych do tworzenia aplikacji oraz integracji z konkretnym sprzętem, platformą lub usługą. W robotyce SDK często udostępnia dostęp do sterowania urządzeniem, telemetrii, sensorów, konfiguracji i funkcji wykonawczych.

Wybierz pozycję, aby zobaczyć opis.

Kategoria główna

Sterowanie i planowaniePercepcja i wizjaRuntime i infrastrukturaSDK

Role w ekosystemie robotycznym

Sterowanie robotem

Robot Control oznacza rolę oprogramowania odpowiedzialnego za sterowanie ruchem, wykonywanie komend, koordynację działania elementów wykonawczych oraz bezpośrednią logikę operacyjną robota.

Planowanie ruchu

Motion Planning oznacza rolę oprogramowania odpowiedzialnego za planowanie trajektorii, ruchu, kolejności działań oraz wyznaczanie bezpiecznych i wykonalnych ścieżek dla robota lub manipulatora.

Percepcja

Perception oznacza rolę oprogramowania przetwarzającego dane z kamer, LiDAR-ów, IMU i innych sensorów w celu wykrywania obiektów, rozpoznawania sceny, lokalizacji, mapowania i interpretacji środowiska.

Wizja komputerowa

Computer Vision oznacza rolę oprogramowania odpowiedzialnego za przetwarzanie obrazu, analizę wideo, detekcję obiektów, segmentację, śledzenie i inne zadania oparte na danych wizualnych.

Wsparcie deweloperów

Developer Enablement oznacza rolę oprogramowania wspierającego deweloperów w integracji, debugowaniu, walidacji, konfiguracji, testowaniu i uruchamianiu systemów robotycznych oraz ich komponentów.

Wybierz pozycję, aby zobaczyć opis.

Rodzina oprogramowania

Rodzina

Rodzina otwartych modeli Vision-Language-Action (VLA) i foundation models dla robotyki: OpenVLA (Stanford/Berkeley), LeRobot (Hugging Face), RoboAgent (CMU), RT-2 (Google DeepMind, publikacja). Wytrenowane na zbiorach typu Open X-Embodiment, BridgeData V2, RoboNet.

Dojrzałość i adopcja

6 / 9

Faza demonstracji

BadaniaPrototypProdukcja

Skala adopcjiBadania / prototyp

Status utrzymaniaAktywnie utrzymywane

Pierwsze wydanie2024

Ostatnia aktualizacja20 maja 2026

Wdrożenia

De facto baseline VLA dla zespołów akademickich od H2 2024 — używany w 150+ publikacjach naukowych (Google Scholar, Q1 2026). Eksperymenty fine-tuningu: TRI (autonomous driving demonstrations), Stanford (mobile manipulation Tidybot), Berkeley (BridgeData V2). Komercyjne fine-tunes: Skild AI, Covariant (zamknięte). HuggingFace Spaces demo z teleop interface.

Społeczność

github.com/openvla/openvla ~2,9 k★, ~310 forków. HuggingFace `openvla/openvla-7b` ~50 k pobrań/miesiąc. Paper arXiv:2406.09246 ~450 cytowań (Q1 2026). Discord 'Open Robotics Foundation Models' ~1,5 k członków. Aktywne PR z fine-tunes na specyficzne domains.

Organizacje

Stanford University

Producent · Główny

University of California, Berkeley

Integruje się z

Symulator robotyki o fotorealistycznej grafice (RTX) z zaawansowaną fizyką PhysX 5. Bazuje na Omniverse Kit, wspiera ROS 2, syntetyczne dane SDG, treningi w Isaac Lab i pipeline Isaac ROS dla wdrożeń na Jetsonie.

→

MuJoCo (Multi-Joint dynamics with Contact)

Otwarty silnik fizyki rigid-body z dokładną symulacją kontaktów i tarcia, stworzony przez Emo Todorova. Od 2021 r. open source na Apache 2.0 pod opieką DeepMind. Standard w robotyce uczącej (RL) i Sim-to-Real.

→

ROS 2

Otwarty framework do tworzenia oprogramowania robotów. Następca ROS 1 oparty na DDS, z natywnym wsparciem dla systemów rozproszonych, real-time i wielu platform. Standard de facto w robotyce badawczej i komercyjnej.

→

LeRobot

LeRobot (Hugging Face) — otwarty framework do robot learning z implementacjami ACT, Diffusion Policy, TDMPC. Standaryzuje zbieranie danych i trening polityk dla manipulatorów i mobilnych robotów.

→

MoveIt 2

Otwartoźródłowy framework planowania ruchu, manipulacji i kinematyki dla ROS 2 — branch MoveIt na ROS 2 (Foxy → Jazzy). Główny opiekun PickNik Robotics. Standard de facto dla manipulatorów w ekosystemie ROS.

→

Powiązane oprogramowanie robotyczne

Π(

π0 (pi-zero)

Pierwszy 'generalist robot policy' Physical Intelligence — VLA z flow matching, akcje 50 Hz, trening 10 000+ godzin demonstracji. Open weights π0-base (luty 2025, Apache 2.0).

→

Π(

π0.5 (pi-zero-5)

π0.5 (pi-zero-5, Physical Intelligence) — rozwinięcie π0 skupione na open-world mobile manipulation: generalizuje na nowe środowiska i zadania bez dodatkowego fine-tuningu dzięki dużej skali danych treningowych.

→

RT-2 (Robotics Transformer 2)

Vision-Language-Action model Google DeepMind oparty na PaLI-X / PaLM-E. Tłumaczy obraz + język na tokeny akcji robota. Pierwszy 'language to action' w skali rzeczywistych robotów (2023).

→

LeRobot

LeRobot (Hugging Face) — otwarty framework do robot learning z implementacjami ACT, Diffusion Policy, TDMPC. Standaryzuje zbieranie danych i trening polityk dla manipulatorów i mobilnych robotów.

→

GR00T N1

NVIDIA GR00T N1 — otwarty model fundamentalny dla humanoidów: dual-system VLA (szybka polityka ruchowa + wolna reguła semantyczna), trenowany na danych cross-embodiment, dostępny przez NVIDIA Isaac.

→

Obsługiwane modele robotów

Unitree G1

Humanoidalny robot dwunożny firmy Unitree Robotics, zaprojektowany jako kompaktowa platforma badawczo-rozwojowa oraz deweloperska.

Applications

Badania
Asystencja domowa

Unitree H1

Pełnowymiarowy uniwersalny humanoid Unitree Robotics, ok. 180 cm i 47 kg, 5 DOF na nogę, prędkość 3,3 m/s, percepcja 3D LiDAR + kamera głębi, kluczowe stawy z silnikami PMSM Unitree M107.

Applications

Badania

Figure 03

Figure 03 to trzeciej generacji humanoidalny robot Figure AI, zaprojektowany dla Helix, środowiska domowego i skalowalnej produkcji masowej.

Applications

Automatyzacja fabryki
Logistyka przemysłowa
Obsługa linii produkcyjnej
Automatyzacja magazynowa
Manipulacja obiektami
Asystencja domowa

Atlas

Humanoidalny robot dwunożny Boston Dynamics. W pełni elektryczna generacja zaprezentowana w 2024 roku jako następca hydraulicznego Atlasa wycofanego po ponad dekadzie badań.

Applications

Automatyzacja fabryki
Badania
Obsługa linii produkcyjnej
Manipulacja obiektami

Docelowe platformy robotyczne

Ramię robotyczne

Robot mobilny

Robot usługowy

Robot badawczy

Obsługiwany sprzęt

NVIDIA Jetson AGX Orin 64GB

compute · compute_modules · industrial

NVIDIA Jetson AGX Thor

compute · compute_modules · industrial

Intel RealSense D435i

sensing · cameras · research · Stereoskopowa kamera RGB-D

Intel RealSense D455

sensing · cameras · professional

Stereolabs ZED 2i

sensing · cameras · industrial

Licencje

MITMIT License

Rodzina licencji: Licencja permisywna

ModyfikacjaDystrybucjaUżytek komercyjnySublicencjonowanieUżytek prywatnyKompatybilna z ROSOSI zatwierdzonaFSF Free/LibreWymaga oznaczenia autorstwa

Jedna z najprostszych i najszerzej stosowanych licencji open source. Pozwala na dowolne użycie, modyfikację i dystrybucję kodu, w tym w produktach zamkniętych, pod warunkiem zachowania tekstu licencji i informacji o prawach autorskich. Nie zawiera klauzuli patentowej ani copyleft.

Uwaga dla robotyki

Dominująca licencja w małych bibliotekach ekosystemu ROS 2 i narzędziach deweloperskich. Idealna dla SDK robotów OEM chcących maksymalnej adopcji. Brak klauzuli patentowej oznacza ryzyko przy projektach z portfoliem patentowym – w takich przypadkach preferowana Apache 2.0.

Oficjalny tekst ↗SPDX ↗OSI ↗

Historia wersji

OpenVLA-mini (4 GB)mar 2025

Mała wersja 3B parametrów dla edge inferencji na Jetson AGX Orin (~150 ms per akcja).

OpenVLA + Mobile Alohasty 2025

Integracja OpenVLA z platformą Mobile Aloha (Stanford), pierwsza dwuręczna demonstracja na bipedalnym robocie.

CogACT (na bazie OpenVLA)lis 2024

CMU + OpenVLA — wariant z dyfuzyjnym head akcji zamiast dyskretnych tokenów. Wyniki SOTA w long-horizon manipulation.

OpenVLA-OFTsie 2024

Wariant 'OFT' — Optimal Fine-Tuning recipe (LoRA-based) z lepszą wydajnością na few-shot tasks.

OpenVLA paper + checkpoint v1cze 2024

Pierwsze publiczne wydanie — paper arXiv:2406.09246 + checkpoint `openvla/openvla-7b` na HuggingFace.