Pętla MBRL składa się z trzech kroków powtarzanych iteracyjnie: (1) Zbieranie danych — agent działa w środowisku polityką eksploracyjną i zapisuje przejścia (s,a,r,s'). (2) Uczenie modelu — sieć dynamiki (deterministyczna, probabilistyczna, ensemble lub latentna jak RSSM) jest trenowana na zebranych danych do przewidywania s' i r. (3) Wykorzystanie modelu — możliwości to: planowanie (CEM/MPC, MCTS w MuZero), trening polityki na rolloutach z modelu (Dyna, Dreamer), bezpośrednie różniczkowanie strategii przez model (analytic policy gradient, SVG, PILCO). Aktualna polityka generuje nowe dane, model jest dotrenowywany. Kluczowe techniki: ensemble dla niepewności (PETS), planowanie horyzontu skończonego, KL/regulizacja przeciw model exploitation, latentne reprezentacje dla wysokowymiarowych obserwacji (Dreamer, RSSM).
Model-free RL wymaga milionów lub miliardów interakcji ze środowiskiem, co jest niewykonalne dla rzeczywistych robotów i drogich symulacji. MBRL drastycznie redukuje liczbę potrzebnych próbek przez uczenie polityki w „wyobraźni" lub planowanie z użyciem nauczonego modelu.
Sieć neuronowa lub model probabilistyczny ucząca się f(s,a) → s'. Może być deterministyczna, probabilistyczna (Gauss), ensemble lub latentna (RSSM).
Oficjalna
Funkcja nagrody zwykle uczona razem z dynamiką, niezbędna do planowania i imagination-based RL.
Komponent decyzyjny: planer (CEM, MPPI, MCTS) lub trenowana polityka (actor-critic w wyobraźni jak Dreamer).
Oficjalna
Bufor doświadczeń używany do uczenia modelu i często też polityki (Dyna).
Optymalizator akcji znajduje obszary stanu, gdzie model jest niedokładny i przewiduje fałszywie wysoką nagrodę.
Drobne błędy modelu kumulują się wykładniczo wzdłuż długich rolloutów.
Model uczony na rzeczywistych danych nie działa dobrze na rolloutach generowanych aktualną polityką.
GP (PILCO) skaluje się słabo do wysokowymiarowych obserwacji; ensemble sieci jest tańszy ale gorszy w oszacowaniu niepewności epistemicznej.
Sutton wprowadza Dyna, łączącą uczenie modelu, planowanie i działanie w jednym systemie.
Deisenroth & Rasmussen pokazują, że Gaussian Process jako model dynamiki osiąga rekordową próbkową efektywność na zadaniach kontrolnych.
Chua i in. ustanawiają silny baseline MBRL z ensemblem sieci probabilistycznych i planowaniem CEM.
Hafner i in. wprowadzają RSSM i pokazują skuteczne planowanie w przestrzeni latentnej z surowych obrazów.
DeepMind pokazuje, że agent uczący się modelu osiąga poziom AlphaZero w Go, szachach i Atari bez dostępu do reguł środowiska.
Janner i in. uzyskują wyniki porównywalne z SAC przy wielokrotnie mniejszej liczbie próbek.
Trening polityki actor-critic w wyobraźni nad RSSM osiąga ludzki poziom na Atari z pojedynczego GPU.
Jedna konfiguracja agenta MBRL osiąga silne wyniki na 150+ zadaniach (Atari, DMC, Minecraft, Crafter) bez tuningu.
Hansen i in. łączą krótkohoryzontowe MPC z nauczoną funkcją wartości, osiągając SoTA na DMC.
Liczba kroków planowanych w przód. Zbyt długi → akumulacja błędów modelu; zbyt krótki → krótkowzroczność.
Wybór: deterministyczny, probabilistyczny, ensemble, GP, latentny (RSSM).
Stosunek rzeczywistych do syntetycznych próbek w treningu polityki. Kluczowe w stylu Dyna/MBPO.
Liczba modeli w ensemble (PETS używa 5-10) — wpływa na estymację niepewności.
CEM / MPPI / MCTS / random shooting / actor-critic in imagination.
Pełna sieć dynamiki, nagrody i polityki/planera jest aktywna w każdym kroku planowania.
Trening modelu jest w pełni równoległy w batchu. Rollouty w wyobraźni można paralelizować po batchu. Sekwencyjny pozostaje krok rzeczywistej interakcji ze środowiskiem oraz wewnętrzny krok rekurencji modelu.
Trening modelu i polityki, rollouty w wyobraźni — GPU klasy A100/V100 wystarcza nawet do złożonych zadań Dreamer/TD-MPC.
Klasyczne MBRL z planerem CEM/MPPI często wykonywane na CPU z masową paralelizacją sample-based.
DreamerV3 w JAX/XLA skaluje się efektywnie na TPU.