V-JEPA 2

Samonadzorowany model świata typu Joint-Embedding Predictive Architecture, trenowany na ponad 1 mln godzin wideo. Umożliwia rozumienie, predykcję i planowanie w świecie fizycznym.

✓ Aktywny✓ Publiczny dostęp⚖ Open sourceModel świata📁 V-JEPA / JEPA

Parametry

1.2B

parametrów

Data premiery

11 czerwca 2025

🏢Meta AIProducent

Dostęp:DownloadWdrożenie:💻 Lokalnie☁ Cloud

Przegląd

V-JEPA 2 to model świata opracowany przez FAIR w Meta, oparty o architekturę Joint-Embedding Predictive Architecture (JEPA) z wizualnym backbone typu Vision Transformer. Model jest trenowany w sposób samonadzorowany na zbiorze ponad miliona godzin internetowego wideo i zdjęć.

Wariant V-JEPA 2-AC (action-conditioned) jest dotrenowany na mniej niż 62 godzinach nieoznaczonych wideo z robotów (zbiór Droid) i pozwala na planowanie zadań robotycznych w trybie zero-shot. Autorzy pokazują m.in. zero-shot picking i placing obiektów na ramionach Franka, bez zbierania danych w docelowych środowiskach i bez dodatkowego treningu pod konkretne zadanie.

Wyniki

77,3% top-1 na Something-Something v2 (rozumienie ruchu), 39,7 recall-at-5 na Epic-Kitchens-100 (antycypacja akcji człowieka). Po dopięciu V-JEPA 2 do dużego modelu językowego (8B) raportowane są stan-of-the-art wyniki na zadaniach video QA: 84,0 na PerceptionTest oraz 76,9 na TempCompass.

Klasyfikacja

Model świata

Rodzina: V-JEPA / JEPA

Dostęp i wdrożenie

Pobieranie

LokalnieChmura

Wagi: Open source

Kluczowe parametry

🧩 Parametry: 1.2B

✓ Fine-tuning

📥 Wejście: wideo, obraz

Robotyka

Spatial predictionSpatial reasoningEnvironment modelingEmbodied task planningMotion planningRobot manipulationRobot controlScene understanding

Specyfikacja techniczna

Parametry

1.2B

parametrów

Licencja

MIT (model weights on Hugging Face)

Wymagania sprzętowe

Pretrening world-modelu wykonywany na klastrach GPU NVIDIA. Inferencja referencyjnego wariantu ViT-L (~0,3 mld parametrów, 64 klatki, rozdzielczość 256 px) możliwa na pojedynczym GPU klasy konsumenckiej. Pełny wariant 1,2 mld parametrów wymaga GPU serwerowego (np. A100 80GB / H100). Wagi i kod referencyjny w PyTorch.

Funkcje:✓ Fine-tuning

Modalności

⬇ Wejście (Input)

videoimage

⬆ Wyjście (Output)

structured_datamotion_trajectories

Możliwości i zastosowania

Natywne możliwości modelu

Rozumienie wideo

Zdolność modelu do analizy i interpretacji treści wideo — rozpoznawania akcji, ruchu, zdarzeń oraz relacji między obiektami w czasie.

Kategoria: video

Planowanie

Tworzenie i realizacja planów działania dla złożonych zadań.

Kategoria: planning

Enkoder wizyjny

Zdolność modelu do kodowania obrazów i klatek wideo w gęste reprezentacje (embeddingi), wykorzystywane do dalszych zadań lub jako backbone dla modeli wizyjno-językowych.

Kategoria: vision

Robotyka

Spatial predictionSpatial reasoningEnvironment modelingEmbodied task planningMotion planningRobot manipulationRobot controlScene understanding

Wyniki benchmarków

4 benchmarki

Something-Something v2

top-1 accuracy · motion understanding

77.3%

📄 V-JEPA 2 paper (arXiv:2506.09985)

Epic-Kitchens-100

recall-at-5 · antycypacja akcji człowieka

39.7

📄 V-JEPA 2 paper (arXiv:2506.09985)

PerceptionTest

video QA, V-JEPA 2 + LLM 8B

84.0

📄 V-JEPA 2 paper (arXiv:2506.09985)

TempCompass

video QA, V-JEPA 2 + LLM 8B

76.9

📄 V-JEPA 2 paper (arXiv:2506.09985)

Architektura techniczna

Rdzeń architektury (Core Architecture)

VIViT

Forma modelu (Model Form)

WMWorld Models WAWAM

Techniki trenowania (Training Techniques)

PRPretraining

Źródła i powiązane strony

4 źródła

PaperV-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planningarxiv.org BlogOur New Model Helps AI Think Before it Acts (Meta Newsroom)about.fb.com Repofacebookresearch/vjepa2 (GitHub)github.com DocsV-JEPA 2 model card (Hugging Face, facebook/vjepa2-vitl-fpc64-256)huggingface.co

Przeglądaj powiązane tematy

📁 V-JEPA / JEPA 🧠 ViT 🧠 World Models 🧠 WAM Wszystkie modele world model