World Models
Jak działa
Model uczy się kompresowanej reprezentacji stanu środowiska i potrafi przewidywać przyszłe stany na podstawie akcji. Agent może "wyobrażać sobie" konsekwencje akcji w modelu świata bez wykonywania ich w rzeczywistości, co umożliwia planowanie i uczenie w wyobraźni.
Rozwiązany problem
Agenci AI uczący się bezpośrednio przez interakcję ze środowiskiem są nieefektywni — wymagają milionów próbek. World models pozwalają agentowi planować i uczyć się wewnętrznie, bez kosztownych interakcji z rzeczywistością.
Komponenty
Kompresuje wysoko wymiarowe obserwacje środowiska (np. obrazy pikselowe) do nisko wymiarowej reprezentacji przestrzeni latentnej. W oryginalnym World Models (2018) realizowany przez Wariacyjny Autoenkoder (VAE). Odpowiada za wyodrębnienie istotnych cech przestrzennych obserwacji.
Oficjalna
Predykuje następne stany latentne na podstawie bieżącego stanu latentnego i działania agenta. Stanowi rdzeń world model — jego zdolność do ekstrapolacji czasowej umożliwia generowanie syntetycznych trajektorii. W oryginalnym World Models realizowany przez MDN-RNN (Mixture Density Network + LSTM).
Oficjalna
Moduł decyzyjny agenta mapujący bieżący stan latentny i ukryty stan modelu dynamiki na działania wykonywane w środowisku. W oryginalnym World Models jest kompaktowy (liniowy lub małą sieć MLP) i trenowany oddzielnie od modelu świata — metodą ewolucyjną (CMA-ES) w generowanych snach.
Oficjalna
Mechanizm generowania syntetycznych trajektorii przez rozwijanie modelu dynamiki w czasie — bez interakcji z rzeczywistym środowiskiem. Agent 'śni': inicjalizuje stan latentny, kolejno predykuje następne stany stosując model dynamiki i wybierając działania przez kontroler. Generowane sekwencje służą do optymalizacji polityki.
Implementacja
Agent trenowany wyłącznie wewnątrz wyobrażonego modelu świata może znaleźć polityki, które uzyskują wysokie nagrody w wyobraźni modelu, ale nie transferują do rzeczywistego środowiska — przez eksploatację błędów predykcji modelu zamiast uczenia rzeczywistych umiejętności.
Błędy modelu dynamiki akumulują się przez każdy krok wyobrażonej trajektorii. Przy długich horyzontach (>20 kroków) trajektorie wyobrażone mogą znacząco odbiegać od rzeczywistych, degradując jakość polityki.
Gdy agent eksploruje nowe obszary środowiska, model dynamiki może nie generalizować poprawnie do niewidzianych przed chwilą stanów, generując nierealistyczne trajektorie wyobrażone w nowych regionach przestrzeni stanu.
Środowiska z losowymi elementami lub wielomodalnymi rozkładami przyszłych stanów są trudne do modelowania przez deterministyczne modele dynamiki. Model może uśredniać modę zamiast zachowywać wielomodalność — prowadząc do rozmytych i nieużytecznych predykcji.
Trenowanie modelu VAE na obraz pikselowych i modelu dynamiki na sekwencjach wyobrażeń wymaga znacznych zasobów GPU. DreamerV3 na złożonych środowiskach (Minecraft) wymaga dziesiątek GPU-dni.
Ewolucja
Jürgen Schmidhuber publikuje serię prac (1990a, 1990b, 1991a) formalnie definiujących koncepcję wyuczalnego modelu środowiska (world model) i oddzielnego kontrolera trenowanego przez ten model. Ustanawia fundamenty paradygmatu MBRL z wewnętrzną symulacją.
Ha i Schmidhuber formalizują i demonstrują trójskładnikową architekturę (Vision: VAE, Memory: MDN-RNN, Controller: CMA-ES) i pokazują, że kontroler może być trenowany wyłącznie wewnątrz wyobrażonych snów world modelu, a następnie przeniesiony do prawdziwego środowiska (Car Racing, VizDoom).
Hafner i in. (Google Brain) proponują PlaNet: model świata z Recurrent State Space Model (RSSM) łączącym deterministyczne i stochastyczne przejścia stanów. Planowanie przez optymalizację trajektorii latentnych (CEM) bez modelu aktora — pierwsza demonstracja na poziomie pikseli dla wielu środowisk ciągłych.
Hafner i in. łączą RSSM z aktorem-krytykiem optymalizowanym wyłącznie przez propagację wsteczną przez wyobrażone trajektorie (backpropagation through imagination). DreamerV1 przewyższa model-free baselines na wyzwaniach DeepMind Control Suite.
Schrittwieser i in. (DeepMind) publikują MuZero — model świata uczący wyłącznie nagrody, wartości i polityki bez rekonstrukcji obserwacji, połączony z MCTS. Osiąga wyniki na poziomie ludzkim w Go, Chess, Shogi i Atari bez znajomości reguł gry.
Hafner i in. publikują DreamerV3 — uogólnioną wersję Dreamera z jedną konfiguracją hiperparametrów działającą na ponad 150 zróżnicowanych zadaniach, w tym zbieraniu diamentów w Minecraft. Pierwsza demonstracja ogólności world model RL na tak szerokim spektrum środowisk.
Bruce i in. (Google DeepMind) publikują Genie — model świata trenowany na nieznanakowanych filmach internetowych, zdolny do generowania interaktywnych środowisk 2D sterowanych przez wyuczone akcje latentne. Rozszerza paradygmat world models na generatywne symulatory środowisk.
Hiperparametry (konfigurowalne osie)
Rozmiar wektora latentnego z generowanego przez enkoder obserwacji. Determinuje pojemność reprezentacji i kompresję informacji. Zbyt mały — utrata informacji; zbyt duży — wolniejszy trening kontrolera.
Rozmiar ukrytego stanu RNN lub RSSM — determinuje pojemność modelu dynamiki do zapamiętywania historii i predykcji przyszłości.
Liczba kroków czasowych symulowanych wewnętrznie przez model dynamiki podczas generowania wyobrażonej trajektorii do trenowania polityki. Dłuższy horyzont poprawia planowanie długoterminowe kosztem wzrostu błędów kumulacyjnych i kosztów obliczeniowych.
Architektura użyta do modelowania przejść między stanami latentymi w czasie. Wybór determinuje zdolność modelu do uchwycenia złożoności dynamiki środowiska.
Wąskie gardło obliczeniowe
Model dynamiki (RNN/RSSM) wymaga sekwencyjnego przetwarzania kroków czasowych, co ogranicza równoległość podczas treningu. Przy długich horyzontach wyobraźni (np. 15–50 kroków w Dreamer) koszt trenowania aktora-krytyka przez propagację wsteczną przez rozwinięty model dynamiki jest dominującym kosztem obliczeniowym.
Paradygmat wykonania
Standardowe world models (VAE + RNN/RSSM + kontroler) używają gęstych sieci neuronowych bez routingu ani rzadkiej aktywacji. MuZero używa wyłącznie deterministycznej sieci dynamiki bez rekonstrukcji obserwacji — co jest architektonicznie uproszczone, ale nadal gęste.
Równoległość
Trening modelu percepcji (enkoder) jest w pełni równoległy (przetwarzanie wsadowe). Trening modelu dynamiki (RNN/RSSM) jest sekwencyjny wzdłuż wymiaru czasowego, ale równoległy ponad elementami wsadu.
Wymagania sprzętowe
Trening world models — szczególnie enkodera (VAE/CNN), modelu dynamiki (RNN/RSSM/Transformer) i aktora-krytyka — dominowany jest przez operacje macierzowe realizowane efektywnie przez tensor cores GPU. DreamerV3 trenowany na V100/A100 GPU.