Trening

Video Pretraining

2022AktywnyAktualizacja: 5 maja 2026Opublikowany

Metoda precooked treningu modeli wizualnych na dużych zbiorach wideo bez etykiet. Model uczy się struktury czasowej i fizyki sceny przez przewidywanie następnych klatek lub odtwarzanie zamaskowanych fragmentów.

Kluczowa innowacja

Uczenie reprezentacji wizualnych przez przewidywanie sekwencji klatek wideo bez nadzoru, zamiast klasyfikacji obrazów.

Kategoria

Trening

Poziom abstrakcji

Pattern

Zastosowania

Robotics foundation modelsWorld modelsVideo generationAction predictionSim-to-real transfer

Jak działa

Model (zazwyczaj transformer wideo lub sieć dyfuzyjna) przetwarza sekwencje klatek i jest trenowany do przewidywania zamaskowanych lub przyszłych klatek. Gradient płynie wstecz przez czas (BPTT), ucząc model koherencji czasowej i fizyki sceny. Po pretrain modelu dostraja się go do zadań downstream (sterowanie robotem, rozumienie sceny).

Rozwiązany problem

Brak skalowanych etykietowanych danych wizualnych; potrzeba nauczenia modelu fizyki sceny i dynamiki ruchu bez nadzoru ludzkiego.

Ewolucja

2022

VideoCLIP i VideoMAE — pierwsze skalowalne Video Pretraining z masked modeling

Punkt przełomowy

2023

Sora (OpenAI) i Genie (DeepMind) pokazują generatywny pretraining wideo w skali

Punkt przełomowy

2025

UnifoLM-WMA-0 (Unitree) stosuje pretraining wideo jako fundament world-model-action dla robotyki

Szczegóły techniczne

Paradygmat wykonania

Tryb główny

dense

Wzorzec aktywacji

all_paths_active

Równoległość

Poziom równoległości

partially_parallel

Zakres

trainingacross_devices

Wymagania sprzętowe

Podstawowe

Masywne macierze uwagi na sekwencjach klatek wymagają wysokiej przepustowości GPU z tensor cores.