
Samonadzorowany model wizji wideo typu Joint-Embedding Predictive Architecture, uczący reprezentacji przez przewidywanie cech (feature prediction) bez augmentacji, tekstu czy rekonstrukcji pikseli.
Parametry
ViT-L (~300M) – ViT-H/16 (~630M)
parametrów
Data premiery
15 lutego 2024
Dostęp:DownloadWdrożenie:💻 Lokalnie
Przegląd
Dostęp i wdrożenie
Pobieranie
Lokalnie
Wagi: Open weights
Kluczowe parametry
🧩 Parametry: ViT-L (~300M) – ViT-H/16 (~630M)
✓ Fine-tuning
📥 Wejście: wideo, obraz
Specyfikacja techniczna
Parametry
ViT-L (~300M) – ViT-H/16 (~630M)
parametrów
Wymagania sprzętowe
Pretrening backbone'a ViT-H/16 wykonywany na klastrach GPU NVIDIA A100. Inferencja możliwa na pojedynczym GPU klasy konsumenckiej / serwerowej.
Funkcje:✓ Fine-tuning
Modalności
⬇ Wejście (Input)
videoimage
⬆ Wyjście (Output)
structured_data
Możliwości i zastosowania
Natywne możliwości modelu
Enkoder wizyjny
Zdolność modelu do kodowania obrazów i klatek wideo w gęste reprezentacje (embeddingi), wykorzystywane do dalszych zadań lub jako backbone dla modeli wizyjno-językowych.
Kategoria: vision
Rozumienie wideo
Zdolność modelu do analizy i interpretacji treści wideo — rozpoznawania akcji, ruchu, zdarzeń oraz relacji między obiektami w czasie.
Kategoria: video
Wyniki benchmarków
3 benchmarki
Kinetics-400
top-1 accuracy · frozen backbone, ViT-H/16
81.9%
📄 V-JEPA paper (arXiv:2404.08471)
Something-Something v2
top-1 accuracy · frozen backbone, ViT-H/16
72.2%
📄 V-JEPA paper (arXiv:2404.08471)
ImageNet-1K
top-1 accuracy · frozen backbone, ViT-H/16
77.9%
📄 V-JEPA paper (arXiv:2404.08471)
Architektura techniczna
Rdzeń architektury (Core Architecture)
Techniki trenowania (Training Techniques)