Robocikowo>ROBOCIKOWO
I-JEPA
Samonadzorowany model wizji typu Joint-Embedding Predictive Architecture, uczący semantycznych reprezentacji obrazów przez przewidywanie embeddingów ukrytych fragmentów.
📦 Zarchiwizowany🔬 Research only⚖ Open weightsModel wzrokowy📁 V-JEPA / JEPA
Parametry
~632M (ViT-H/14) – ~1B (ViT-g/16)
parametrów
Data premiery
19 stycznia 2023
Dostęp:DownloadWdrożenie:💻 Lokalnie

Przegląd

I-JEPA (Image-based Joint-Embedding Predictive Architecture) to samonadzorowana metoda uczenia reprezentacji obrazów opracowana w Meta FAIR. Pierwsza publikacja: arXiv:2301.08243 z 19 stycznia 2023, prezentowana na CVPR 2023 jako Highlight. Autorzy: Mahmoud Assran, Quentin Duval, Ishan Misra, Piotr Bojanowski, Pascal Vincent, Michael Rabbat, Yann LeCun, Nicolas Ballas.

Idea I-JEPA: z pojedynczego bloku kontekstowego model przewiduje reprezentacje (embeddingi) różnych bloków docelowych w tym samym obrazie — bez generowania pikseli i bez ręcznie projektowanych augmentacji danych. Kluczowe są dwie decyzje: bloki docelowe muszą być odpowiednio duże (semantyczne), a blok kontekstowy odpowiednio bogaty informacyjnie (rozproszony przestrzennie).

Architektura i skala

Model używa Vision Transformera jako backbone'u (ViT-H/14, ViT-H/16 448px, ViT-g/16). I-JEPA jest wydajne obliczeniowo: trening ViT-H/14 na ImageNet-1K na 16 GPU A100 zajmuje poniżej 72 godzin. Wagi referencyjne dla wariantów ViT-H/14, ViT-H/16 (448px) i ViT-g/16 są publicznie dostępne (pretreningi na ImageNet-1K i ImageNet-22K).

Pozycja w rodzinie JEPA

I-JEPA jest pierwszym pełnym modelem z rodziny JEPA dla obrazów. Stanowi punkt wyjścia dla późniejszych modeli wideo V-JEPA (2024) i V-JEPA 2 (2025). Repozytorium kodu zostało zarchiwizowane 1 sierpnia 2024 — dalsze prace prowadzone są w projektach V-JEPA / V-JEPA 2.

Klasyfikacja
Model wzrokowy
Rodzina: V-JEPA / JEPA
Dostęp i wdrożenie
Pobieranie
Lokalnie
Wagi: Open weights
Kluczowe parametry
🧩 Parametry: ~632M (ViT-H/14) – ~1B (ViT-g/16)
✓ Fine-tuning
📥 Wejście: obraz

Specyfikacja techniczna

Parametry
~632M (ViT-H/14) – ~1B (ViT-g/16)
parametrów
Wymagania sprzętowe
Trening referencyjny ViT-H/14 na ImageNet-1K wykonany na 16 GPU NVIDIA A100 80GB (effective batch-size 2048) w czasie poniżej 72 godzin. Inferencja możliwa na pojedynczym GPU klasy konsumenckiej.
Funkcje:Fine-tuning
Modalności
⬇ Wejście (Input)
image
⬆ Wyjście (Output)
structured_data

Możliwości i zastosowania

Natywne możliwości modelu
Enkoder wizyjny
Zdolność modelu do kodowania obrazów i klatek wideo w gęste reprezentacje (embeddingi), wykorzystywane do dalszych zadań lub jako backbone dla modeli wizyjno-językowych.
Kategoria: vision

Architektura techniczna

Rdzeń architektury (Core Architecture)
Techniki trenowania (Training Techniques)