I-JEPA

Samonadzorowany model wizji typu Joint-Embedding Predictive Architecture, uczący semantycznych reprezentacji obrazów przez przewidywanie embeddingów ukrytych fragmentów.

📦 Zarchiwizowany🔬 Research only⚖ Open weightsModel wzrokowy📁 V-JEPA / JEPA

Parametry

~632M (ViT-H/14) – ~1B (ViT-g/16)

parametrów

Data premiery

19 stycznia 2023

🏢Meta AIProducent

Dostęp:DownloadWdrożenie:💻 Lokalnie

Przegląd

I-JEPA (Image-based Joint-Embedding Predictive Architecture) to samonadzorowana metoda uczenia reprezentacji obrazów opracowana w Meta FAIR. Pierwsza publikacja: arXiv:2301.08243 z 19 stycznia 2023, prezentowana na CVPR 2023 jako Highlight. Autorzy: Mahmoud Assran, Quentin Duval, Ishan Misra, Piotr Bojanowski, Pascal Vincent, Michael Rabbat, Yann LeCun, Nicolas Ballas.

Idea I-JEPA: z pojedynczego bloku kontekstowego model przewiduje reprezentacje (embeddingi) różnych bloków docelowych w tym samym obrazie — bez generowania pikseli i bez ręcznie projektowanych augmentacji danych. Kluczowe są dwie decyzje: bloki docelowe muszą być odpowiednio duże (semantyczne), a blok kontekstowy odpowiednio bogaty informacyjnie (rozproszony przestrzennie).

Architektura i skala

Model używa Vision Transformera jako backbone'u (ViT-H/14, ViT-H/16 448px, ViT-g/16). I-JEPA jest wydajne obliczeniowo: trening ViT-H/14 na ImageNet-1K na 16 GPU A100 zajmuje poniżej 72 godzin. Wagi referencyjne dla wariantów ViT-H/14, ViT-H/16 (448px) i ViT-g/16 są publicznie dostępne (pretreningi na ImageNet-1K i ImageNet-22K).

Pozycja w rodzinie JEPA

I-JEPA jest pierwszym pełnym modelem z rodziny JEPA dla obrazów. Stanowi punkt wyjścia dla późniejszych modeli wideo V-JEPA (2024) i V-JEPA 2 (2025). Repozytorium kodu zostało zarchiwizowane 1 sierpnia 2024 — dalsze prace prowadzone są w projektach V-JEPA / V-JEPA 2.

Klasyfikacja

Model wzrokowy

Rodzina: V-JEPA / JEPA

Dostęp i wdrożenie

Pobieranie

Lokalnie

Wagi: Open weights

Kluczowe parametry

🧩 Parametry: ~632M (ViT-H/14) – ~1B (ViT-g/16)

✓ Fine-tuning

📥 Wejście: obraz

Specyfikacja techniczna

Parametry

~632M (ViT-H/14) – ~1B (ViT-g/16)

parametrów

Wymagania sprzętowe

Trening referencyjny ViT-H/14 na ImageNet-1K wykonany na 16 GPU NVIDIA A100 80GB (effective batch-size 2048) w czasie poniżej 72 godzin. Inferencja możliwa na pojedynczym GPU klasy konsumenckiej.

Funkcje:✓ Fine-tuning

Modalności

⬇ Wejście (Input)

image

⬆ Wyjście (Output)

structured_data

Możliwości i zastosowania

Natywne możliwości modelu

Enkoder wizyjny

Zdolność modelu do kodowania obrazów i klatek wideo w gęste reprezentacje (embeddingi), wykorzystywane do dalszych zadań lub jako backbone dla modeli wizyjno-językowych.

Kategoria: vision

Architektura techniczna

Rdzeń architektury (Core Architecture)

VIViT

Techniki trenowania (Training Techniques)

PRPretraining

Źródła i powiązane strony

3 źródła

PaperSelf-Supervised Learning from Images with a Joint-Embedding Predictive Architecture (arXiv:2301.08243)arxiv.org BlogI-JEPA: A first AI model based on Yann LeCun's vision for more human-like AI (Meta AI)ai.meta.com Repofacebookresearch/ijepa (GitHub, archived)github.com

Przeglądaj powiązane tematy

📁 V-JEPA / JEPA 🧠 ViT Wszystkie modele vision model