Robocikowo>ROBOCIKOWO
Architektura

World Models

Modele AI uczące się wewnętrznej reprezentacji świata do planowania działań.
Kluczowa innowacja
Formalizuje i demonstruje paradygmat, w którym agent uczy się wyuczalnej wewnętrznej reprezentacji dynamiki swojego środowiska (world model) i trenuje politykę sterowania w oderwaniu od rzeczywistego środowiska — wyłącznie wewnątrz generowanych przez ten model symulacji, co radykalnie poprawia efektywność próbkowania danych.
Kategoria
Architektura
Poziom abstrakcji
Paradigm
Poziom operacji
ModelTreningInferencja
Zastosowania
Efektywne uczenie ze wzmocnieniemPlanowanie w grach i symulacjachAutonomiczne pojazdyRobotyka z ograniczonymi danymi rzeczywistymiBadania nad modelami bazowymi dla robotów

Jak działa

Model uczy się kompresowanej reprezentacji stanu środowiska i potrafi przewidywać przyszłe stany na podstawie akcji. Agent może "wyobrażać sobie" konsekwencje akcji w modelu świata bez wykonywania ich w rzeczywistości, co umożliwia planowanie i uczenie w wyobraźni.

Rozwiązany problem

Agenci AI uczący się bezpośrednio przez interakcję ze środowiskiem są nieefektywni — wymagają milionów próbek. World models pozwalają agentowi planować i uczyć się wewnętrznie, bez kosztownych interakcji z rzeczywistością.

Komponenty

Model percepcji / enkoder obserwacji (V)Redukcja wymiarowości obserwacji — konwersja surowych danych zmysłowych na kompaktową reprezentację latentną z

Kompresuje wysoko wymiarowe obserwacje środowiska (np. obrazy pikselowe) do nisko wymiarowej reprezentacji przestrzeni latentnej. W oryginalnym World Models (2018) realizowany przez Wariacyjny Autoenkoder (VAE). Odpowiada za wyodrębnienie istotnych cech przestrzennych obserwacji.

INWysoko wymiarowe obserwacje środowiska: obrazy pikselowe, dane sensoryczne lub stany środowiska.
OUTNiskowymiarowy wektor latentny z — kompaktowa reprezentacja bieżącego stanu środowiska.
Wariacyjny Autoenkoder (VAE)Probabilistyczny enkoder-dekoder uczący rozkładu nad przestrzenią latentną — stosowany w oryginalnym World Models (2018).
Enkoder CNNKonwolucyjna sieć neuronowa do ekstrakcji cech wizualnych bez probabilistycznego modelowania — stosowany w uproszczonych implementacjach MBRL.
RSSM — reprezentacja stochastyczna i deterministycznaRecurrent State Space Model łączący deterministyczny stan ukryty RNN ze stochastycznym stanem latentnym — stosowany w PlaNet i serii Dreamer.

Oficjalna

Model dynamiki środowiska (M)Modelowanie dynamiki czasowej środowiska — predykcja przyszłych stanów latentnych warunkowana działaniami agenta

Predykuje następne stany latentne na podstawie bieżącego stanu latentnego i działania agenta. Stanowi rdzeń world model — jego zdolność do ekstrapolacji czasowej umożliwia generowanie syntetycznych trajektorii. W oryginalnym World Models realizowany przez MDN-RNN (Mixture Density Network + LSTM).

INBieżący stan latentny z(t), ukryty stan RNN h(t) i działanie agenta a(t).
OUTRozkład prawdopodobieństwa nad następnym stanem latentnym z(t+1) i następny stan ukryty h(t+1).
MDN-RNN (Mixture Density Network + LSTM)Sieć rekurencyjna generująca mieszaninę rozkładów Gaussa jako predykcję następnego stanu — stosowana w oryginalnym World Models (2018).
RSSM (Recurrent State Space Model)Model z deterministyczną ścieżką przejścia i stochastycznymi zmiennymi latentymi — stosowany w PlaNet i serii Dreamer.
Sieć dynamiki MuZeroNauczony model dynamiki przewidujący nagrody, wartości i politykę bez rekonstrukcji obserwacji — stosowany w MuZero (DeepMind 2020).

Oficjalna

Kontroler / polityka (C)Mapowanie stanu wewnętrznego (latent + ukryty stan RNN) na działania agenta; optymalizowany względem nagrody wewnątrz generowanych trajektorii

Moduł decyzyjny agenta mapujący bieżący stan latentny i ukryty stan modelu dynamiki na działania wykonywane w środowisku. W oryginalnym World Models jest kompaktowy (liniowy lub małą sieć MLP) i trenowany oddzielnie od modelu świata — metodą ewolucyjną (CMA-ES) w generowanych snach.

Kontroler liniowyPojedyncza warstwa liniowa mapująca [z, h] na działania — stosowany w oryginalnym World Models (2018) z CMA-ES.
Aktor-krytyk w przestrzeni latentnejSieci aktora i krytyka trenowane wyłącznie na wyobrażonych trajektoriach przez propagację wsteczną — stosowane w serii Dreamer.

Oficjalna

Generowanie trajektorii wyobrażonych (dreaming)Generowanie syntetycznych danych treningowych dla kontrolera przez symulację wewnętrzną — zastępuje kosztowne interakcje z rzeczywistym środowiskiem

Mechanizm generowania syntetycznych trajektorii przez rozwijanie modelu dynamiki w czasie — bez interakcji z rzeczywistym środowiskiem. Agent 'śni': inicjalizuje stan latentny, kolejno predykuje następne stany stosując model dynamiki i wybierając działania przez kontroler. Generowane sekwencje służą do optymalizacji polityki.

Implementacja

Pułapki implementacyjne
Eksploatacja imperfektów modelu świata przez agenta (model exploitation)Krytyczna

Agent trenowany wyłącznie wewnątrz wyobrażonego modelu świata może znaleźć polityki, które uzyskują wysokie nagrody w wyobraźni modelu, ale nie transferują do rzeczywistego środowiska — przez eksploatację błędów predykcji modelu zamiast uczenia rzeczywistych umiejętności.

Rozwiązanie:Stosuj temperaturę modelu (uncertainty injection) do kontroli pewności predykcji i karania za nadmiernie optymistyczne wyobrażenia. Regularnie waliduj politykę w prawdziwym środowisku. Stosuj pesymistyczne planiści karzące za niepewność.
Kumulacja błędów predykcji na długich horyzontach wyobraźniWysoka

Błędy modelu dynamiki akumulują się przez każdy krok wyobrażonej trajektorii. Przy długich horyzontach (>20 kroków) trajektorie wyobrażone mogą znacząco odbiegać od rzeczywistych, degradując jakość polityki.

Rozwiązanie:Ograniczaj horyzont wyobraźni do wartości, gdzie błędy kumulacyjne są akceptowalne. Stosuj techniki kalibracji niepewności. Trenuj model dynamiki ze zróżnicowanymi danymi wejściowymi — z uwzględnieniem akcji wykonywanych przez trenowaną politykę (on-policy data).
Katastroficzne zapominanie modelu dynamiki przy zmianie rozkładu danychWysoka

Gdy agent eksploruje nowe obszary środowiska, model dynamiki może nie generalizować poprawnie do niewidzianych przed chwilą stanów, generując nierealistyczne trajektorie wyobrażone w nowych regionach przestrzeni stanu.

Rozwiązanie:Stosuj bufor odpowiedzi (replay buffer) z danymi zbieranymi na przestrzeni całego treningu. Trenuj model dynamiki na mieszaninie starych i nowych danych. Stosuj adaptive data collection zapewniające pokrycie przestrzeni stanów.
Trudność modelowania środowisk stochastycznych i wielomodalnychWysoka

Środowiska z losowymi elementami lub wielomodalnymi rozkładami przyszłych stanów są trudne do modelowania przez deterministyczne modele dynamiki. Model może uśredniać modę zamiast zachowywać wielomodalność — prowadząc do rozmytych i nieużytecznych predykcji.

Rozwiązanie:Stosuj modele z jawnym stochastycznym komponentem (RSSM, MDN-RNN, dyfuzja). Modeluj niepewność przez kalibrowane rozkłady zamiast punktowych predykcji. Unikaj MSE jako jedynego kryterium rekonstrukcji.
Wysoki koszt obliczeniowy przy skalowalnych środowiskach wizualnychŚrednia

Trenowanie modelu VAE na obraz pikselowych i modelu dynamiki na sekwencjach wyobrażeń wymaga znacznych zasobów GPU. DreamerV3 na złożonych środowiskach (Minecraft) wymaga dziesiątek GPU-dni.

Rozwiązanie:Stosuj low-dimensional state spaces zamiast pikseli gdy to możliwe. Kompresuj przestrzeń latentną agresywnie. Stosuj mixed-precision training i efektywne implementacje (JAX, TensorRT).

Ewolucja

Oryginalny paper · 2018 · NeurIPS 2018 (NeurIPS 2018 Workshop; pełna wersja jako: 'Recurrent World Models Facilitate Policy Evolution', NeurIPS 2018) · David Ha
Recurrent World Models Facilitate Policy Evolution
David Ha, Jürgen Schmidhuber
1990
Schmidhuber — pierwsze formalne prace nad RNN-based world models i kontrolerami
Punkt przełomowy

Jürgen Schmidhuber publikuje serię prac (1990a, 1990b, 1991a) formalnie definiujących koncepcję wyuczalnego modelu środowiska (world model) i oddzielnego kontrolera trenowanego przez ten model. Ustanawia fundamenty paradygmatu MBRL z wewnętrzną symulacją.

2018
Ha & Schmidhuber — World Models: V-M-C z VAE, MDN-RNN i kontrolerem ewolucyjnym
Punkt przełomowy

Ha i Schmidhuber formalizują i demonstrują trójskładnikową architekturę (Vision: VAE, Memory: MDN-RNN, Controller: CMA-ES) i pokazują, że kontroler może być trenowany wyłącznie wewnątrz wyobrażonych snów world modelu, a następnie przeniesiony do prawdziwego środowiska (Car Racing, VizDoom).

2019
PlaNet (Hafner i in.) — planowanie w przestrzeni latentnej przez RSSM
Punkt przełomowy

Hafner i in. (Google Brain) proponują PlaNet: model świata z Recurrent State Space Model (RSSM) łączącym deterministyczne i stochastyczne przejścia stanów. Planowanie przez optymalizację trajektorii latentnych (CEM) bez modelu aktora — pierwsza demonstracja na poziomie pikseli dla wielu środowisk ciągłych.

2020
DreamerV1 (Hafner i in.) — aktor-krytyk trenowany wyłącznie w wyobraźni
Punkt przełomowy

Hafner i in. łączą RSSM z aktorem-krytykiem optymalizowanym wyłącznie przez propagację wsteczną przez wyobrażone trajektorie (backpropagation through imagination). DreamerV1 przewyższa model-free baselines na wyzwaniach DeepMind Control Suite.

2020
MuZero (DeepMind) — world model bez rekonstrukcji obserwacji
Punkt przełomowy

Schrittwieser i in. (DeepMind) publikują MuZero — model świata uczący wyłącznie nagrody, wartości i polityki bez rekonstrukcji obserwacji, połączony z MCTS. Osiąga wyniki na poziomie ludzkim w Go, Chess, Shogi i Atari bez znajomości reguł gry.

2023
DreamerV3 — uogólniony algorytm na ponad 150 zadaniach
Punkt przełomowy

Hafner i in. publikują DreamerV3 — uogólnioną wersję Dreamera z jedną konfiguracją hiperparametrów działającą na ponad 150 zróżnicowanych zadaniach, w tym zbieraniu diamentów w Minecraft. Pierwsza demonstracja ogólności world model RL na tak szerokim spektrum środowisk.

2024
Genie (Google DeepMind) — interaktywny world model generujący środowiska z wideo

Bruce i in. (Google DeepMind) publikują Genie — model świata trenowany na nieznanakowanych filmach internetowych, zdolny do generowania interaktywnych środowisk 2D sterowanych przez wyuczone akcje latentne. Rozszerza paradygmat world models na generatywne symulatory środowisk.

Hiperparametry (konfigurowalne osie)

Wymiarowość przestrzeni latentnejWysoka

Rozmiar wektora latentnego z generowanego przez enkoder obserwacji. Determinuje pojemność reprezentacji i kompresję informacji. Zbyt mały — utrata informacji; zbyt duży — wolniejszy trening kontrolera.

32Ha & Schmidhuber (2018) — VAE latent dim.
1024DreamerV3 — stochastic + deterministic.
Liczba jednostek ukrytych modelu dynamikiWysoka

Rozmiar ukrytego stanu RNN lub RSSM — determinuje pojemność modelu dynamiki do zapamiętywania historii i predykcji przyszłości.

256Ha & Schmidhuber (2018) — MDN-RNN.
2048DreamerV3.
Horyzont wyobraźni (kroki predykcji)Krytyczna

Liczba kroków czasowych symulowanych wewnętrznie przez model dynamiki podczas generowania wyobrażonej trajektorii do trenowania polityki. Dłuższy horyzont poprawia planowanie długoterminowe kosztem wzrostu błędów kumulacyjnych i kosztów obliczeniowych.

15DreamerV1.
64Długie horyzonty dla zadań wymagających planowania długoterminowego.
Typ modelu dynamikiKrytyczna

Architektura użyta do modelowania przejść między stanami latentymi w czasie. Wybór determinuje zdolność modelu do uchwycenia złożoności dynamiki środowiska.

MDN-RNN (LSTM + Mixture Density Network)Ha & Schmidhuber (2018).
RSSM (Recurrent State Space Model)PlaNet, Dreamer — deterministyczna + stochastyczna ścieżka.
Transformer-based world modelIRIS, Genie — model dynamiki oparty na Transformerze.

Wąskie gardło obliczeniowe

Trening modelu dynamiki na długich trajektoriach i generowanie sekwencji wyobrażeniowych

Model dynamiki (RNN/RSSM) wymaga sekwencyjnego przetwarzania kroków czasowych, co ogranicza równoległość podczas treningu. Przy długich horyzontach wyobraźni (np. 15–50 kroków w Dreamer) koszt trenowania aktora-krytyka przez propagację wsteczną przez rozwinięty model dynamiki jest dominującym kosztem obliczeniowym.

Zależy od
Długość horyzontu wyobraźniWymiarowość przestrzeni latentnejRozmiar modelu dynamiki (liczba jednostek RNN/SSM)

Paradygmat wykonania

Tryb główny
dense

Standardowe world models (VAE + RNN/RSSM + kontroler) używają gęstych sieci neuronowych bez routingu ani rzadkiej aktywacji. MuZero używa wyłącznie deterministycznej sieci dynamiki bez rekonstrukcji obserwacji — co jest architektonicznie uproszczone, ale nadal gęste.

Wzorzec aktywacji
all_paths_active
Mechanizm routingu

Równoległość

Poziom równoległości
partially_parallel

Trening modelu percepcji (enkoder) jest w pełni równoległy (przetwarzanie wsadowe). Trening modelu dynamiki (RNN/RSSM) jest sekwencyjny wzdłuż wymiaru czasowego, ale równoległy ponad elementami wsadu.

Zakres
traininginference
Ograniczenia
!Generowanie wyobrażonej trajektorii jest sekwencyjne — każdy krok predykcji z(t+1) zależy od z(t) i h(t). Niemożliwa jest równoległość kroków czasowych w pojedynczej trajektorii.
!Różne sekwencje wyobrażeniowe (z różnych punktów startowych lub równoległych środowisk) mogą być generowane jednocześnie w osobnych wątkach lub na osobnych GPU.

Wymagania sprzętowe

Podstawowe

Trening world models — szczególnie enkodera (VAE/CNN), modelu dynamiki (RNN/RSSM/Transformer) i aktora-krytyka — dominowany jest przez operacje macierzowe realizowane efektywnie przez tensor cores GPU. DreamerV3 trenowany na V100/A100 GPU.

Źródła