W każdym kroku t encoder mapuje obserwację o_t do wektora cech. Deterministyczna ścieżka oblicza h_t = GRU(h_{t-1}, [s_{t-1}, a_{t-1}]). Stochastyczna ścieżka utrzymuje dwie głowice: prior p(s_t | h_t) (używany podczas „imagination" / planowania) oraz posterior q(s_t | h_t, e_t) (używany podczas trenowania na rzeczywistych obserwacjach). Dekoder rekonstruuje o_t z [h_t, s_t], a osobne głowice przewidują nagrodę i (w Dreamerze) wartość/politykę. Trening odbywa się przez maksymalizację ELBO: rekonstrukcja obserwacji i nagrody minus KL między posterior i prior. Po wytrenowaniu polityka i wartości uczą się w wyobrażonych trajektoriach generowanych z priora (rollouts w przestrzeni latentnej).
Czysto deterministyczne modele rekurencyjne mają problem z reprezentowaniem niepewności i stochastyczności środowiska, a czysto stochastyczne modele cierpią na zanik informacji w czasie. RSSM łączy oba podejścia, by uzyskać stabilną, długozakresową pamięć (h_t) oraz zdolność modelowania niepewności (s_t), co umożliwia skuteczne planowanie i uczenie polityk w przestrzeni latentnej z pikseli.
Ukryty stan GRU aktualizowany jako h_t = GRU(h_{t-1}, [s_{t-1}, a_{t-1}]). Zapewnia stabilny przepływ informacji w czasie.
Oficjalna
Stochastyczna zmienna latentna z rozkładu warunkowego (zwykle diagonalnego Gaussa, w DreamerV2/V3 kategorycznego), reprezentująca stan obserwowalny.
Oficjalna
Sieć p(s_t | h_t) używana podczas imagination/planowania, gdy nie ma dostępu do rzeczywistej obserwacji.
Sieć q(s_t | h_t, e_t) wykorzystująca cechy obserwacji e_t = encoder(o_t). Używana podczas treningu.
CNN dla pikseli lub MLP dla stanów; wyjście podawane do posterioru.
Transponowana CNN rekonstruująca o_t; gradient z błędu rekonstrukcji uczy reprezentację latentną.
MLP przewidujący skalarną nagrodę dla aktualnego stanu.
Bez free nats lub KL balancing posterior s_t zapada się do prior i model traci zdolność reprezentacji obserwacji.
Jeśli rollouty w wyobraźni używają priora znacznie różniącego się od posterioru, polityki uczone w wyobraźni nie przenoszą się na środowisko.
Gradient przez kategoryczny latent wymaga estymatora straight-through; nieuważne implementacje psują skalowanie gradientów.
Loss rekonstrukcji obrazu może dominować nad sygnałem nagrody, prowadząc do reprezentacji nieprzydatnych dla polityki.
Hafner i in. publikują preprint „Learning Latent Dynamics for Planning from Pixels" definiujący RSSM oraz CEM-planowanie w przestrzeni latentnej.
Hafner i in. zastępują CEM-planowanie uczeniem aktora-krytyka w wyobraźni nad RSSM, wprowadzając rodzinę Dreamer.
Zamiana Gaussa na 32×32 kategoryczne zmienne latentne i wprowadzenie KL balancing umożliwiają osiągnięcie ludzkiego poziomu na Atari z pojedynczego GPU.
Jedna konfiguracja RSSM osiąga silne wyniki na 150+ zadaniach (DMC, Atari, Minecraft, Crafter) bez tuningu per-task.
DreamerV3 z RSSM jako pierwszy algorytm autonomicznie zdobywa diament w Minecraft bez human data i bez curriculum.
Rozmiar wektora ukrytego GRU (np. 200 w PlaNet, 600 w DreamerV1, 4096 w DreamerV3 large).
Wymiar Gaussa lub konfiguracja kategorialna (np. 32×32 w DreamerV2/V3).
Współczynnik balansowania KL pomiędzy aktualizacją prior vs posterior (DreamerV2+).
Próg pomijania KL pod pewną wartością, zapobiega zapadnięciu się posterioru.
Długość rollouts w wyobraźni używanych do treningu polityki (np. 15 w Dreamer).
Wszystkie głowice (deterministyczna, prior, posterior, decoder, reward) są aktywne dla każdego kroku.
Aktualizacja h_t = GRU(h_{t-1}, ...) jest z natury sekwencyjna w czasie. Wewnątrz batcha rollouty można zrównoleglać, ale po osi czasu nie da się zrównoleglić w sposób trywialny (w przeciwieństwie do uwagi w Transformerze).
Stosunkowo małe sieci, intensywne batchowane rolloty w wyobraźni — pojedynczy GPU klasy V100/A100 wystarcza do treningu DreamerV2/V3.
Referencyjna implementacja DreamerV3 w JAX/XLA skaluje się dobrze na TPU.