Dane wejściowe dzielone są na kontekst (widoczna część) i cel (ukryta część). Koder kontekstu generuje embedding z widocznych danych. Koder celu (zwykle EMA wagowanego kodera kontekstu) generuje embedding referencyjny z ukrytych danych. Predyktor przewiduje embedding celu na podstawie embeddingu kontekstu — opcjonalnie z dodatkową zmienną ukrytą z modelującą niepewność. Trening minimalizuje odległość między predykcją a referencją w przestrzeni cech.
JEPA rozwiązuje problem niewydajnego uczenia samonadzorowanego z obrazu i wideo. Modele generatywne marnują moc obliczeniową na odtwarzanie nieistotnego szumu pikseli, modele kontrastowe wymagają kosztownego doboru próbek negatywnych i augmentacji. JEPA pozwala uczyć się reprezentacji świata fizycznego bez tych dwóch kosztów.
Sieć neuronowa (zwykle ViT) przetwarzająca widoczną część danych wejściowych w abstrakcyjną reprezentację wektorową. Jej wagi są aktualizowane standardowym gradientem.
Oficjalna
Sieć neuronowa przetwarzająca ukrytą część danych w reprezentację odniesienia (target). Jej wagi są zazwyczaj wykładniczą średnią ruchomą (EMA) wag kodera kontekstu. Stop-gradient zapobiega aktualizacji wag przez błąd predyktora.
Sieć neuronowa (typowo lżejsza od enkoderów) mapująca reprezentację kontekstu na predykcję reprezentacji celu. Może przyjmować dodatkową zmienną ukrytą z modelującą niepewność i wiele możliwych wersji przyszłości (stochastyczny predyktor).
Oficjalna
Jeśli oba kodery nauczą się zwracać tę samą stałą wartość niezależnie od danych, błąd predykcji spada do zera, ale model staje się bezużyteczny.
Zbyt mały rozmiar maski sprawia że predykcja staje się trywialna (predyktor może interpolować z sąsiednich pikseli). Zbyt duży rozmiar — predykcja staje się niedeterministyczna i model nie zbiega.
Architektura zaprojektowana do odfiltrowania nieistotnych pikseli może gubić sygnał w scenach gdzie istotne są właśnie subtelne, statyczne szczegóły (np. tekstury, defekty powierzchni).
Praca A Path Towards Autonomous Machine Intelligence przedstawia JEPA jako kluczowy element architektury kognitywnej dla autonomicznej inteligencji maszynowej, osadzonej we frameworku modeli opartych na energii.
I-JEPA (Image-JEPA, Assran et al., 2023) demonstruje że predykcja w latent space dla obrazu osiąga wyniki porównywalne z modelami generatywnymi (MAE) i kontrastowymi (DINO) przy znacznie niższym koszcie obliczeniowym pretreningu.
V-JEPA (Video-JEPA, Bardes et al., 2024) trenowany na milionach godzin niesłabilowanego wideo, pokazuje uczenie reprezentacji dynamiki ruchu bez tagowania ramek.
V-JEPA 2 z wariantem warunkowanym akcją (V-JEPA 2-AC) jest stosowany jako wewnętrzny model świata do planowania zadań sięgania i chwytania na nieznanych obiektach. Pierwszy publicznie udokumentowany krok od architektury do produktu w robotyce.
Według serwisu Observer i branżowego itwiz, na przełomie 2025/2026 LeCun miał opuścić Meta i założyć nowy startup poświęcony rozwojowi tej architektury. Informacje na poziomie świeżych doniesień prasowych, niepotwierdzone oficjalnie.
Główny koszt obliczeniowy JEPA to forward+backward przez koder kontekstu oraz forward przez koder celu (bez backprop dzięki stop-gradient). Dla Vision Transformer dominującym kosztem jest self-attention O(n²·d). Skala datasetu wideo (V-JEPA 2 trenowany na milionach godzin) wymaga wielo-GPU klastrów A100/H100.
ViT-based encoders są w pełni zrównoleglone na GPU (matmul-heavy, attention). Trening V-JEPA 2 na wieloGPU klastrach A100/H100.
Architektura ViT mapuje się dobrze na TPU; brak publicznych implementacji JEPA na TPU od Meta, ale teoretycznie kompatybilna.
Inferencja JEPA jako world model dla robota jest możliwa na edge (Jetson Orin/Thor), ale pełna baza ViT-Huge może wymagać kwantyzacji lub destylacji do mniejszego modelu.