Robocikowo>ROBOCIKOWO
V-JEPA

V-JEPA

1 · Rodzina: V-JEPA / JEPA
Samonadzorowany model wizji wideo typu Joint-Embedding Predictive Architecture, uczący reprezentacji przez przewidywanie cech (feature prediction) bez augmentacji, tekstu czy rekonstrukcji pikseli.
📦 Zarchiwizowany🔬 Research only⚖ Open weightsModel wzrokowy📁 V-JEPA / JEPA
Parametry
ViT-L (~300M) – ViT-H/16 (~630M)
parametrów
Data premiery
15 lutego 2024
Dostęp:DownloadWdrożenie:💻 Lokalnie

Przegląd

V-JEPA (Video Joint-Embedding Predictive Architecture) to samonadzorowana metoda uczenia reprezentacji wizualnych z wideo, opracowana w Meta FAIR. Praca "Revisiting Feature Prediction for Learning Visual Representations from Video" (arXiv:2404.08471) opublikowana 15 lutego 2024. Autorzy: Adrien Bardes, Quentin Garrido, Jean Ponce, Xinlei Chen, Michael Rabbat, Yann LeCun, Mahmoud Assran, Nicolas Ballas.

V-JEPA jest trenowany wyłącznie z celem przewidywania cech (feature prediction): bez wstępnie wytrenowanych enkoderów obrazu, bez tekstu, bez negatywnych przykładów i bez rekonstrukcji pikseli. To rozszerzenie podejścia I-JEPA z 2023 roku na domenę wideo i kluczowy poprzednik V-JEPA 2.

Architektura i dane

Backbone Vision Transformer (ViT-L i ViT-H/16). Pretrening na zbiorze 2 milionów filmów (VideoMix2M) zebranych z publicznych zbiorów danych wideo. Reprezentacje są oceniane na zadaniach downstream zarówno na obrazie, jak i wideo, bez dostrajania parametrów modelu (frozen backbone).

Wyniki

Największy model ViT-H/16 trenowany wyłącznie na wideo osiąga: 81,9% (top-1) na Kinetics-400, 72,2% na Something-Something v2 oraz 77,9% na ImageNet-1K — z zamrożonym backbone'em. Wskazuje to, że uczenie przez przewidywanie cech wideo daje wszechstronne reprezentacje wizualne dla zadań ruchowych i wyglądowych.

Pozycja w rodzinie JEPA

V-JEPA jest pierwszym modelem rodziny JEPA wytrenowanym na wideo, następcą I-JEPA (2023) i bezpośrednim poprzednikiem V-JEPA 2 (2025), który skaluje podejście do ponad 1 mln godzin wideo i dodaje wariant action-conditioned do planowania robotycznego.

Klasyfikacja
Model wzrokowy
Rodzina: V-JEPA / JEPA
Dostęp i wdrożenie
Pobieranie
Lokalnie
Wagi: Open weights
Kluczowe parametry
🧩 Parametry: ViT-L (~300M) – ViT-H/16 (~630M)
✓ Fine-tuning
📥 Wejście: wideo, obraz

Specyfikacja techniczna

Parametry
ViT-L (~300M) – ViT-H/16 (~630M)
parametrów
Wymagania sprzętowe
Pretrening backbone'a ViT-H/16 wykonywany na klastrach GPU NVIDIA A100. Inferencja możliwa na pojedynczym GPU klasy konsumenckiej / serwerowej.
Funkcje:Fine-tuning
Modalności
⬇ Wejście (Input)
videoimage
⬆ Wyjście (Output)
structured_data

Możliwości i zastosowania

Natywne możliwości modelu
Enkoder wizyjny
Zdolność modelu do kodowania obrazów i klatek wideo w gęste reprezentacje (embeddingi), wykorzystywane do dalszych zadań lub jako backbone dla modeli wizyjno-językowych.
Kategoria: vision
Rozumienie wideo
Zdolność modelu do analizy i interpretacji treści wideo — rozpoznawania akcji, ruchu, zdarzeń oraz relacji między obiektami w czasie.
Kategoria: video

Wyniki benchmarków

3 benchmarki
Kinetics-400
top-1 accuracy · frozen backbone, ViT-H/16
81.9%
📄 V-JEPA paper (arXiv:2404.08471)
Something-Something v2
top-1 accuracy · frozen backbone, ViT-H/16
72.2%
📄 V-JEPA paper (arXiv:2404.08471)
ImageNet-1K
top-1 accuracy · frozen backbone, ViT-H/16
77.9%
📄 V-JEPA paper (arXiv:2404.08471)

Architektura techniczna

Rdzeń architektury (Core Architecture)
Techniki trenowania (Training Techniques)