Architektura

JEPA (Joint Embedding Predictive Architecture)

2022AktywnyAktualizacja: 23 czerwca 2026Opublikowany

JEPA (Joint Embedding Predictive Architecture) to schemat projektowy uczenia samonadzorowanego od Yanna LeCuna, w którym sieć uczy się przewidywać abstrakcyjne reprezentacje (embeddings) brakujących fragmentów danych zamiast odtwarzać surowe piksele.

Kluczowa innowacja

Predykcja w przestrzeni ukrytej (latent space) zamiast w przestrzeni surowych pikseli — eliminacja kosztu modelowania nieistotnego szumu wizualnego przy zachowaniu zdolności do uczenia samonadzorowanego.

Kategoria

Architektura

Poziom abstrakcji

Paradygmat

Poziom operacji

ModelTreningElement architekturySterowanie robotem

Zastosowania

Robotyka i sterowanie — wewnętrzny symulator do planowania działań przed wykonaniemEmbodied AI i agenci uczący się z obserwacji świata fizycznegoPretrening Vision Transformer (ViT) dla zadań klasyfikacji i segmentacji obrazuPretrening modeli wideo dla rozumienia dynamiki ruchuPojazdy autonomiczne i predykcja trajektorii w przestrzeni reprezentacjiSystemy przemysłowe wymagające rozumienia fizycznych konsekwencji zdarzeń

Jak działa

Dane wejściowe dzielone są na kontekst (widoczna część) i cel (ukryta część). Koder kontekstu generuje embedding z widocznych danych. Koder celu (zwykle EMA wagowanego kodera kontekstu) generuje embedding referencyjny z ukrytych danych. Predyktor przewiduje embedding celu na podstawie embeddingu kontekstu — opcjonalnie z dodatkową zmienną ukrytą z modelującą niepewność. Trening minimalizuje odległość między predykcją a referencją w przestrzeni cech.

Rozwiązany problem

JEPA rozwiązuje problem niewydajnego uczenia samonadzorowanego z obrazu i wideo. Modele generatywne marnują moc obliczeniową na odtwarzanie nieistotnego szumu pikseli, modele kontrastowe wymagają kosztownego doboru próbek negatywnych i augmentacji. JEPA pozwala uczyć się reprezentacji świata fizycznego bez tych dwóch kosztów.

Kluczowe mechanizmy

Predykcja w przestrzeni ukrytej (latent space) zamiast w pikselach

Asymetryczna para encoderów: koder kontekstu (trenowany) + koder celu (EMA wag)

Predyktor jako osobna głowica neuronowa nad reprezentacjami

Maskowanie blokowe danych wejściowych (block masking) dla generowania kontekstu i celu

Stop-gradient na koderze celu zapobiegający trywialnym rozwiązaniom

Energy-based modeling: niska energia dla konfiguracji fizycznie spójnych

Mocne strony i ograniczenia

Mocne strony

✓Efektywność obliczeniowa — model nie uczy się szumu pikseli

✓Lepsza skalowalność niż modele generatywne dla obrazu/wideo

✓Brak wymogu próbek negatywnych (w przeciwieństwie do SimCLR)

✓Brak wymogu ręcznych augmentacji (w przeciwieństwie do BYOL/MoCo)

✓Naturalna integracja z planowaniem (predykcja konsekwencji)

✓Spójność z perspektywą energy-based models i intuicyjnej fizyki

✓Otwarte implementacje udostępniane przez Meta FAIR (I-JEPA, V-JEPA, V-JEPA 2)

Ograniczenia

✗Ryzyko zapadania się reprezentacji (representation collapse) — wymaga technik zaradczych jak EMA + stop-gradient

✗Krytyka: wielokrotne stosowanie predykcji JEPA w pętli czasowej sprowadza się do ukrytej autoregresji w przestrzeni wektorów — brak dowodu na odporność na narastanie błędu w długich horyzontach

✗Słabsza wydajność w środowiskach statycznych z dużą ilością nieregularnego szumu tła (gdzie modele generatywne radzą sobie lepiej)

✗Większość zastosowań robotycznych pozostaje na etapie badawczym/demonstracyjnym — niewiele wdrożeń produkcyjnych

✗Obawy społeczności AI safety dotyczące mechanizmów motywacji wewnętrznej w autonomicznych agentach

✗Trudność w doborze hiperparametrów masking ratio i wielkości reprezentacji

Komponenty

Context EncoderWytwarza reprezentację kontekstu (widocznego fragmentu) używaną przez predyktor jako wejście.

Sieć neuronowa (zwykle ViT) przetwarzająca widoczną część danych wejściowych w abstrakcyjną reprezentację wektorową. Jej wagi są aktualizowane standardowym gradientem.

Oficjalna

Target EncoderDostarcza wzorzec reprezentacji ukrytego fragmentu, do którego ma dążyć predykcja.

Sieć neuronowa przetwarzająca ukrytą część danych w reprezentację odniesienia (target). Jej wagi są zazwyczaj wykładniczą średnią ruchomą (EMA) wag kodera kontekstu. Stop-gradient zapobiega aktualizacji wag przez błąd predyktora.

PredictorNajważniejszy element operacyjny architektury — to on jest właściwym modelem świata.

Sieć neuronowa (typowo lżejsza od enkoderów) mapująca reprezentację kontekstu na predykcję reprezentacji celu. Może przyjmować dodatkową zmienną ukrytą z modelującą niepewność i wiele możliwych wersji przyszłości (stochastyczny predyktor).

Predyktor deterministycznyBez zmiennej z, generuje jedno przewidywanie.

Predyktor stochastyczny z latentem zModeluje rozkład możliwych przyszłości; przydatny dla niepewnych predykcji wideo.

Oficjalna

Implementacja

Pułapki implementacyjne

Zapadanie się reprezentacji (representation collapse)Wysoka

Jeśli oba kodery nauczą się zwracać tę samą stałą wartość niezależnie od danych, błąd predykcji spada do zera, ale model staje się bezużyteczny.

Rozwiązanie:Stosowanie wykładniczej średniej ruchomej (EMA) wag dla kodera celu, stop-gradientu zapobiegającego backpropagacji przez koder celu, oraz regularyzacji wariancji/kowariancji reprezentacji (jak w VICReg). W I-JEPA i V-JEPA stosuje się EMA + stop-gradient.

Niewłaściwy dobór strategii maskowaniaŚrednia

Zbyt mały rozmiar maski sprawia że predykcja staje się trywialna (predyktor może interpolować z sąsiednich pikseli). Zbyt duży rozmiar — predykcja staje się niedeterministyczna i model nie zbiega.

Rozwiązanie:Maskowanie blokowe (block masking) z proporcją 15-30% w I-JEPA. Dla wideo dodatkowo maskowanie tubowe (tube masking) wzdłuż czasu. Wymaga empirycznego dostrajania per dataset.

Słabsza wydajność w środowiskach statycznych z szumem tłaŚrednia

Architektura zaprojektowana do odfiltrowania nieistotnych pikseli może gubić sygnał w scenach gdzie istotne są właśnie subtelne, statyczne szczegóły (np. tekstury, defekty powierzchni).

Rozwiązanie:Hybrydyzacja z modelem generatywnym (np. dodatkowa głowica rekonstrukcji), lub trening na zadania downstream wrażliwe na tekstury — zamiast czystego pretreningu JEPA.

Ewolucja

Oryginalny paper · 2022 · OpenReview (Position paper, Meta FAIR) · Yann LeCun

A Path Towards Autonomous Machine Intelligence

Yann LeCun

2022

Yann LeCun publikuje position paper definiujący JEPA

Punkt przełomowy

Praca A Path Towards Autonomous Machine Intelligence przedstawia JEPA jako kluczowy element architektury kognitywnej dla autonomicznej inteligencji maszynowej, osadzonej we frameworku modeli opartych na energii.

2023

Meta FAIR publikuje I-JEPA — pierwsza praktyczna implementacja dla obrazu

I-JEPA (Image-JEPA, Assran et al., 2023) demonstruje że predykcja w latent space dla obrazu osiąga wyniki porównywalne z modelami generatywnymi (MAE) i kontrastowymi (DINO) przy znacznie niższym koszcie obliczeniowym pretreningu.

2024

Meta FAIR publikuje V-JEPA — rozszerzenie na wideo

V-JEPA (Video-JEPA, Bardes et al., 2024) trenowany na milionach godzin niesłabilowanego wideo, pokazuje uczenie reprezentacji dynamiki ruchu bez tagowania ramek.

2025

V-JEPA 2 i V-JEPA 2-AC — pierwsze realne zastosowanie w robotyce

Punkt przełomowy

V-JEPA 2 z wariantem warunkowanym akcją (V-JEPA 2-AC) jest stosowany jako wewnętrzny model świata do planowania zadań sięgania i chwytania na nieznanych obiektach. Pierwszy publicznie udokumentowany krok od architektury do produktu w robotyce.

2026

Doniesienia o odejściu Yanna LeCuna z Meta i założeniu startupu wokół JEPA

Według serwisu Observer i branżowego itwiz, na przełomie 2025/2026 LeCun miał opuścić Meta i założyć nowy startup poświęcony rozwojowi tej architektury. Informacje na poziomie świeżych doniesień prasowych, niepotwierdzone oficjalnie.