V-JEPA

Samonadzorowany model wizji wideo typu Joint-Embedding Predictive Architecture, uczący reprezentacji przez przewidywanie cech (feature prediction) bez augmentacji, tekstu czy rekonstrukcji pikseli.

📦 Zarchiwizowany🔬 Research only⚖ Open weightsModel wzrokowy📁 V-JEPA / JEPA

Parametry

ViT-L (~300M) – ViT-H/16 (~630M)

parametrów

Data premiery

15 lutego 2024

🏢Meta AIProducent

Dostęp:DownloadWdrożenie:💻 Lokalnie

Przegląd

V-JEPA (Video Joint-Embedding Predictive Architecture) to samonadzorowana metoda uczenia reprezentacji wizualnych z wideo, opracowana w Meta FAIR. Praca "Revisiting Feature Prediction for Learning Visual Representations from Video" (arXiv:2404.08471) opublikowana 15 lutego 2024. Autorzy: Adrien Bardes, Quentin Garrido, Jean Ponce, Xinlei Chen, Michael Rabbat, Yann LeCun, Mahmoud Assran, Nicolas Ballas.

V-JEPA jest trenowany wyłącznie z celem przewidywania cech (feature prediction): bez wstępnie wytrenowanych enkoderów obrazu, bez tekstu, bez negatywnych przykładów i bez rekonstrukcji pikseli. To rozszerzenie podejścia I-JEPA z 2023 roku na domenę wideo i kluczowy poprzednik V-JEPA 2.

Architektura i dane

Backbone Vision Transformer (ViT-L i ViT-H/16). Pretrening na zbiorze 2 milionów filmów (VideoMix2M) zebranych z publicznych zbiorów danych wideo. Reprezentacje są oceniane na zadaniach downstream zarówno na obrazie, jak i wideo, bez dostrajania parametrów modelu (frozen backbone).

Wyniki

Największy model ViT-H/16 trenowany wyłącznie na wideo osiąga: 81,9% (top-1) na Kinetics-400, 72,2% na Something-Something v2 oraz 77,9% na ImageNet-1K — z zamrożonym backbone'em. Wskazuje to, że uczenie przez przewidywanie cech wideo daje wszechstronne reprezentacje wizualne dla zadań ruchowych i wyglądowych.

Pozycja w rodzinie JEPA

V-JEPA jest pierwszym modelem rodziny JEPA wytrenowanym na wideo, następcą I-JEPA (2023) i bezpośrednim poprzednikiem V-JEPA 2 (2025), który skaluje podejście do ponad 1 mln godzin wideo i dodaje wariant action-conditioned do planowania robotycznego.

Klasyfikacja

Model wzrokowy

Rodzina: V-JEPA / JEPA

Dostęp i wdrożenie

Pobieranie

Lokalnie

Wagi: Open weights

Kluczowe parametry

🧩 Parametry: ViT-L (~300M) – ViT-H/16 (~630M)

✓ Fine-tuning

📥 Wejście: wideo, obraz

Specyfikacja techniczna

Parametry

ViT-L (~300M) – ViT-H/16 (~630M)

parametrów

Wymagania sprzętowe

Pretrening backbone'a ViT-H/16 wykonywany na klastrach GPU NVIDIA A100. Inferencja możliwa na pojedynczym GPU klasy konsumenckiej / serwerowej.

Funkcje:✓ Fine-tuning

Modalności

⬇ Wejście (Input)

videoimage

⬆ Wyjście (Output)

structured_data

Możliwości i zastosowania

Natywne możliwości modelu

Enkoder wizyjny

Zdolność modelu do kodowania obrazów i klatek wideo w gęste reprezentacje (embeddingi), wykorzystywane do dalszych zadań lub jako backbone dla modeli wizyjno-językowych.

Kategoria: vision

Rozumienie wideo

Zdolność modelu do analizy i interpretacji treści wideo — rozpoznawania akcji, ruchu, zdarzeń oraz relacji między obiektami w czasie.

Kategoria: video

Wyniki benchmarków

3 benchmarki

Kinetics-400

top-1 accuracy · frozen backbone, ViT-H/16

81.9%

📄 V-JEPA paper (arXiv:2404.08471)

Something-Something v2

top-1 accuracy · frozen backbone, ViT-H/16

72.2%

📄 V-JEPA paper (arXiv:2404.08471)

ImageNet-1K

top-1 accuracy · frozen backbone, ViT-H/16

77.9%

📄 V-JEPA paper (arXiv:2404.08471)

Architektura techniczna

Rdzeń architektury (Core Architecture)

VIViT

Techniki trenowania (Training Techniques)

PRPretraining

Źródła i powiązane strony

3 źródła

PaperRevisiting Feature Prediction for Learning Visual Representations from Video (V-JEPA, arXiv:2404.08471)arxiv.org BlogV-JEPA: The next step toward advanced machine intelligence (Meta AI)ai.meta.com Repofacebookresearch/jepa (GitHub)github.com

Przeglądaj powiązane tematy

📁 V-JEPA / JEPA 🧠 ViT Wszystkie modele vision model