Robocikowo>ROBOCIKOWO
V-JEPA 2

V-JEPA 2

2 · Rodzina: V-JEPA / JEPA
Samonadzorowany model świata typu Joint-Embedding Predictive Architecture, trenowany na ponad 1 mln godzin wideo. Umożliwia rozumienie, predykcję i planowanie w świecie fizycznym.
✓ Aktywny✓ Publiczny dostęp⚖ Open sourceModel świata📁 V-JEPA / JEPA
Parametry
1.2B
parametrów
Data premiery
11 czerwca 2025
Dostęp:DownloadWdrożenie:💻 Lokalnie☁ Cloud

Przegląd

V-JEPA 2 to model świata opracowany przez FAIR w Meta, oparty o architekturę Joint-Embedding Predictive Architecture (JEPA) z wizualnym backbone typu Vision Transformer. Model jest trenowany w sposób samonadzorowany na zbiorze ponad miliona godzin internetowego wideo i zdjęć.

Wariant V-JEPA 2-AC (action-conditioned) jest dotrenowany na mniej niż 62 godzinach nieoznaczonych wideo z robotów (zbiór Droid) i pozwala na planowanie zadań robotycznych w trybie zero-shot. Autorzy pokazują m.in. zero-shot picking i placing obiektów na ramionach Franka, bez zbierania danych w docelowych środowiskach i bez dodatkowego treningu pod konkretne zadanie.

Wyniki

77,3% top-1 na Something-Something v2 (rozumienie ruchu), 39,7 recall-at-5 na Epic-Kitchens-100 (antycypacja akcji człowieka). Po dopięciu V-JEPA 2 do dużego modelu językowego (8B) raportowane są stan-of-the-art wyniki na zadaniach video QA: 84,0 na PerceptionTest oraz 76,9 na TempCompass.

Klasyfikacja
Model świata
Rodzina: V-JEPA / JEPA
Dostęp i wdrożenie
Pobieranie
LokalnieChmura
Wagi: Open source
Kluczowe parametry
🧩 Parametry: 1.2B
✓ Fine-tuning
📥 Wejście: wideo, obraz
Robotyka
Spatial predictionSpatial reasoningEnvironment modelingEmbodied task planningMotion planningRobot manipulationRobot controlScene understanding

Specyfikacja techniczna

Parametry
1.2B
parametrów
Licencja
MIT (model weights on Hugging Face)
Wymagania sprzętowe
Pretrening world-modelu wykonywany na klastrach GPU NVIDIA. Inferencja referencyjnego wariantu ViT-L (~0,3 mld parametrów, 64 klatki, rozdzielczość 256 px) możliwa na pojedynczym GPU klasy konsumenckiej. Pełny wariant 1,2 mld parametrów wymaga GPU serwerowego (np. A100 80GB / H100). Wagi i kod referencyjny w PyTorch.
Funkcje:Fine-tuning
Modalności
⬇ Wejście (Input)
videoimage
⬆ Wyjście (Output)
structured_datamotion_trajectories

Możliwości i zastosowania

Natywne możliwości modelu
Rozumienie wideo
Zdolność modelu do analizy i interpretacji treści wideo — rozpoznawania akcji, ruchu, zdarzeń oraz relacji między obiektami w czasie.
Kategoria: video
Planowanie
Zdolność modelu do wyznaczania sekwencji działań prowadzących do celu — przewidywania skutków akcji i wyboru optymalnej ścieżki w danym środowisku.
Kategoria: planning
Enkoder wizyjny
Zdolność modelu do kodowania obrazów i klatek wideo w gęste reprezentacje (embeddingi), wykorzystywane do dalszych zadań lub jako backbone dla modeli wizyjno-językowych.
Kategoria: vision
Robotyka
Spatial predictionSpatial reasoningEnvironment modelingEmbodied task planningMotion planningRobot manipulationRobot controlScene understanding

Wyniki benchmarków

4 benchmarki
Something-Something v2
top-1 accuracy · motion understanding
77.3%
📄 V-JEPA 2 paper (arXiv:2506.09985)
Epic-Kitchens-100
recall-at-5 · antycypacja akcji człowieka
39.7
📄 V-JEPA 2 paper (arXiv:2506.09985)
PerceptionTest
video QA, V-JEPA 2 + LLM 8B
84.0
📄 V-JEPA 2 paper (arXiv:2506.09985)
TempCompass
video QA, V-JEPA 2 + LLM 8B
76.9
📄 V-JEPA 2 paper (arXiv:2506.09985)

Architektura techniczna

Rdzeń architektury (Core Architecture)
Forma modelu (Model Form)
Techniki trenowania (Training Techniques)