Robocikowo>ROBOCIKOWO
Trening

Video Pretraining

2022AktywnyAktualizacja: 5 maja 2026Opublikowany
Metoda precooked treningu modeli wizualnych na dużych zbiorach wideo bez etykiet. Model uczy się struktury czasowej i fizyki sceny przez przewidywanie następnych klatek lub odtwarzanie zamaskowanych fragmentów.
Kluczowa innowacja
Uczenie reprezentacji wizualnych przez przewidywanie sekwencji klatek wideo bez nadzoru, zamiast klasyfikacji obrazów.
Kategoria
Trening
Poziom abstrakcji
Pattern
Zastosowania
Robotics foundation modelsWorld modelsVideo generationAction predictionSim-to-real transfer

Jak działa

Model (zazwyczaj transformer wideo lub sieć dyfuzyjna) przetwarza sekwencje klatek i jest trenowany do przewidywania zamaskowanych lub przyszłych klatek. Gradient płynie wstecz przez czas (BPTT), ucząc model koherencji czasowej i fizyki sceny. Po pretrain modelu dostraja się go do zadań downstream (sterowanie robotem, rozumienie sceny).

Rozwiązany problem

Brak skalowanych etykietowanych danych wizualnych; potrzeba nauczenia modelu fizyki sceny i dynamiki ruchu bez nadzoru ludzkiego.

Ewolucja

2022
VideoCLIP i VideoMAE — pierwsze skalowalne Video Pretraining z masked modeling
Punkt przełomowy
2023
Sora (OpenAI) i Genie (DeepMind) pokazują generatywny pretraining wideo w skali
Punkt przełomowy
2025
UnifoLM-WMA-0 (Unitree) stosuje pretraining wideo jako fundament world-model-action dla robotyki
Szczegóły techniczne

Paradygmat wykonania

Tryb główny
dense
Wzorzec aktywacji
all_paths_active

Równoległość

Poziom równoległości
partially_parallel
Zakres
trainingacross_devices

Wymagania sprzętowe

Podstawowe

Masywne macierze uwagi na sekwencjach klatek wymagają wysokiej przepustowości GPU z tensor cores.