Architektura

World Models

Modele AI uczące się wewnętrznej reprezentacji świata do planowania działań.

Kluczowa innowacja

Formalizuje i demonstruje paradygmat, w którym agent uczy się wyuczalnej wewnętrznej reprezentacji dynamiki swojego środowiska (world model) i trenuje politykę sterowania w oderwaniu od rzeczywistego środowiska — wyłącznie wewnątrz generowanych przez ten model symulacji, co radykalnie poprawia efektywność próbkowania danych.

Kategoria

Architektura

Poziom abstrakcji

Paradygmat

Poziom operacji

ModelTreningInferencja

Zastosowania

Efektywne uczenie ze wzmocnieniemPlanowanie w grach i symulacjachAutonomiczne pojazdyRobotyka z ograniczonymi danymi rzeczywistymiBadania nad modelami bazowymi dla robotów

Jak działa

Model uczy się kompresowanej reprezentacji stanu środowiska i potrafi przewidywać przyszłe stany na podstawie akcji. Agent może "wyobrażać sobie" konsekwencje akcji w modelu świata bez wykonywania ich w rzeczywistości, co umożliwia planowanie i uczenie w wyobraźni.

Rozwiązany problem

Agenci AI uczący się bezpośrednio przez interakcję ze środowiskiem są nieefektywni — wymagają milionów próbek. World models pozwalają agentowi planować i uczyć się wewnętrznie, bez kosztownych interakcji z rzeczywistością.

Komponenty

Model percepcji / enkoder obserwacji (V)Redukcja wymiarowości obserwacji — konwersja surowych danych zmysłowych na kompaktową reprezentację latentną z

Kompresuje wysoko wymiarowe obserwacje środowiska (np. obrazy pikselowe) do nisko wymiarowej reprezentacji przestrzeni latentnej. W oryginalnym World Models (2018) realizowany przez Wariacyjny Autoenkoder (VAE). Odpowiada za wyodrębnienie istotnych cech przestrzennych obserwacji.

INWysoko wymiarowe obserwacje środowiska: obrazy pikselowe, dane sensoryczne lub stany środowiska.

OUTNiskowymiarowy wektor latentny z — kompaktowa reprezentacja bieżącego stanu środowiska.

Wariacyjny Autoenkoder (VAE)Probabilistyczny enkoder-dekoder uczący rozkładu nad przestrzenią latentną — stosowany w oryginalnym World Models (2018).

Enkoder CNNKonwolucyjna sieć neuronowa do ekstrakcji cech wizualnych bez probabilistycznego modelowania — stosowany w uproszczonych implementacjach MBRL.

RSSM — reprezentacja stochastyczna i deterministycznaRecurrent State Space Model łączący deterministyczny stan ukryty RNN ze stochastycznym stanem latentnym — stosowany w PlaNet i serii Dreamer.

Oficjalna

Model dynamiki środowiska (M)Modelowanie dynamiki czasowej środowiska — predykcja przyszłych stanów latentnych warunkowana działaniami agenta

Predykuje następne stany latentne na podstawie bieżącego stanu latentnego i działania agenta. Stanowi rdzeń world model — jego zdolność do ekstrapolacji czasowej umożliwia generowanie syntetycznych trajektorii. W oryginalnym World Models realizowany przez MDN-RNN (Mixture Density Network + LSTM).

INBieżący stan latentny z(t), ukryty stan RNN h(t) i działanie agenta a(t).

OUTRozkład prawdopodobieństwa nad następnym stanem latentnym z(t+1) i następny stan ukryty h(t+1).

MDN-RNN (Mixture Density Network + LSTM)Sieć rekurencyjna generująca mieszaninę rozkładów Gaussa jako predykcję następnego stanu — stosowana w oryginalnym World Models (2018).

RSSM (Recurrent State Space Model)Model z deterministyczną ścieżką przejścia i stochastycznymi zmiennymi latentymi — stosowany w PlaNet i serii Dreamer.

Sieć dynamiki MuZeroNauczony model dynamiki przewidujący nagrody, wartości i politykę bez rekonstrukcji obserwacji — stosowany w MuZero (DeepMind 2020).

Oficjalna

Kontroler / polityka (C)Mapowanie stanu wewnętrznego (latent + ukryty stan RNN) na działania agenta; optymalizowany względem nagrody wewnątrz generowanych trajektorii

Moduł decyzyjny agenta mapujący bieżący stan latentny i ukryty stan modelu dynamiki na działania wykonywane w środowisku. W oryginalnym World Models jest kompaktowy (liniowy lub małą sieć MLP) i trenowany oddzielnie od modelu świata — metodą ewolucyjną (CMA-ES) w generowanych snach.

Kontroler liniowyPojedyncza warstwa liniowa mapująca [z, h] na działania — stosowany w oryginalnym World Models (2018) z CMA-ES.

Aktor-krytyk w przestrzeni latentnejSieci aktora i krytyka trenowane wyłącznie na wyobrażonych trajektoriach przez propagację wsteczną — stosowane w serii Dreamer.

Oficjalna

Generowanie trajektorii wyobrażonych (dreaming)Generowanie syntetycznych danych treningowych dla kontrolera przez symulację wewnętrzną — zastępuje kosztowne interakcje z rzeczywistym środowiskiem

Mechanizm generowania syntetycznych trajektorii przez rozwijanie modelu dynamiki w czasie — bez interakcji z rzeczywistym środowiskiem. Agent 'śni': inicjalizuje stan latentny, kolejno predykuje następne stany stosując model dynamiki i wybierając działania przez kontroler. Generowane sekwencje służą do optymalizacji polityki.

Implementacja

Implementacje referencyjne

World Models (oryginalna implementacja Ha & Schmidhuber, TensorFlow)

Python · David Ha

Oficjalna

DreamerV3 (Hafner i in., JAX)

Python · Danijar Hafner

Oficjalna

PlaNet (Hafner i in., TensorFlow)

Python · Google Research

Oficjalna

Pułapki implementacyjne

Eksploatacja imperfektów modelu świata przez agenta (model exploitation)Krytyczna

Agent trenowany wyłącznie wewnątrz wyobrażonego modelu świata może znaleźć polityki, które uzyskują wysokie nagrody w wyobraźni modelu, ale nie transferują do rzeczywistego środowiska — przez eksploatację błędów predykcji modelu zamiast uczenia rzeczywistych umiejętności.

Rozwiązanie:Stosuj temperaturę modelu (uncertainty injection) do kontroli pewności predykcji i karania za nadmiernie optymistyczne wyobrażenia. Regularnie waliduj politykę w prawdziwym środowisku. Stosuj pesymistyczne planiści karzące za niepewność.

Kumulacja błędów predykcji na długich horyzontach wyobraźniWysoka

Błędy modelu dynamiki akumulują się przez każdy krok wyobrażonej trajektorii. Przy długich horyzontach (>20 kroków) trajektorie wyobrażone mogą znacząco odbiegać od rzeczywistych, degradując jakość polityki.

Rozwiązanie:Ograniczaj horyzont wyobraźni do wartości, gdzie błędy kumulacyjne są akceptowalne. Stosuj techniki kalibracji niepewności. Trenuj model dynamiki ze zróżnicowanymi danymi wejściowymi — z uwzględnieniem akcji wykonywanych przez trenowaną politykę (on-policy data).

Katastroficzne zapominanie modelu dynamiki przy zmianie rozkładu danychWysoka

Gdy agent eksploruje nowe obszary środowiska, model dynamiki może nie generalizować poprawnie do niewidzianych przed chwilą stanów, generując nierealistyczne trajektorie wyobrażone w nowych regionach przestrzeni stanu.

Rozwiązanie:Stosuj bufor odpowiedzi (replay buffer) z danymi zbieranymi na przestrzeni całego treningu. Trenuj model dynamiki na mieszaninie starych i nowych danych. Stosuj adaptive data collection zapewniające pokrycie przestrzeni stanów.

Trudność modelowania środowisk stochastycznych i wielomodalnychWysoka

Środowiska z losowymi elementami lub wielomodalnymi rozkładami przyszłych stanów są trudne do modelowania przez deterministyczne modele dynamiki. Model może uśredniać modę zamiast zachowywać wielomodalność — prowadząc do rozmytych i nieużytecznych predykcji.

Rozwiązanie:Stosuj modele z jawnym stochastycznym komponentem (RSSM, MDN-RNN, dyfuzja). Modeluj niepewność przez kalibrowane rozkłady zamiast punktowych predykcji. Unikaj MSE jako jedynego kryterium rekonstrukcji.

Wysoki koszt obliczeniowy przy skalowalnych środowiskach wizualnychŚrednia

Trenowanie modelu VAE na obraz pikselowych i modelu dynamiki na sekwencjach wyobrażeń wymaga znacznych zasobów GPU. DreamerV3 na złożonych środowiskach (Minecraft) wymaga dziesiątek GPU-dni.

Rozwiązanie:Stosuj low-dimensional state spaces zamiast pikseli gdy to możliwe. Kompresuj przestrzeń latentną agresywnie. Stosuj mixed-precision training i efektywne implementacje (JAX, TensorRT).

Ewolucja

Oryginalny paper · 2018 · NeurIPS 2018 (NeurIPS 2018 Workshop; pełna wersja jako: 'Recurrent World Models Facilitate Policy Evolution', NeurIPS 2018) · David Ha

Recurrent World Models Facilitate Policy Evolution

David Ha, Jürgen Schmidhuber

1990

Schmidhuber — pierwsze formalne prace nad RNN-based world models i kontrolerami

Punkt przełomowy

Jürgen Schmidhuber publikuje serię prac (1990a, 1990b, 1991a) formalnie definiujących koncepcję wyuczalnego modelu środowiska (world model) i oddzielnego kontrolera trenowanego przez ten model. Ustanawia fundamenty paradygmatu MBRL z wewnętrzną symulacją.

2018

Ha & Schmidhuber — World Models: V-M-C z VAE, MDN-RNN i kontrolerem ewolucyjnym

Punkt przełomowy

Ha i Schmidhuber formalizują i demonstrują trójskładnikową architekturę (Vision: VAE, Memory: MDN-RNN, Controller: CMA-ES) i pokazują, że kontroler może być trenowany wyłącznie wewnątrz wyobrażonych snów world modelu, a następnie przeniesiony do prawdziwego środowiska (Car Racing, VizDoom).

Recurrent World Models Facilitate Policy Evolution (artykuł)

2019

PlaNet (Hafner i in.) — planowanie w przestrzeni latentnej przez RSSM

Punkt przełomowy

Hafner i in. (Google Brain) proponują PlaNet: model świata z Recurrent State Space Model (RSSM) łączącym deterministyczne i stochastyczne przejścia stanów. Planowanie przez optymalizację trajektorii latentnych (CEM) bez modelu aktora — pierwsza demonstracja na poziomie pikseli dla wielu środowisk ciągłych.

Learning Latent Dynamics for Planning from Pixels (artykuł)

2020

DreamerV1 (Hafner i in.) — aktor-krytyk trenowany wyłącznie w wyobraźni

Punkt przełomowy

Hafner i in. łączą RSSM z aktorem-krytykiem optymalizowanym wyłącznie przez propagację wsteczną przez wyobrażone trajektorie (backpropagation through imagination). DreamerV1 przewyższa model-free baselines na wyzwaniach DeepMind Control Suite.

Dream to Control: Learning Behaviors by Latent Imagination (artykuł)

2020

MuZero (DeepMind) — world model bez rekonstrukcji obserwacji

Punkt przełomowy

Schrittwieser i in. (DeepMind) publikują MuZero — model świata uczący wyłącznie nagrody, wartości i polityki bez rekonstrukcji obserwacji, połączony z MCTS. Osiąga wyniki na poziomie ludzkim w Go, Chess, Shogi i Atari bez znajomości reguł gry.

Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model (artykuł)

2023

DreamerV3 — uogólniony algorytm na ponad 150 zadaniach

Punkt przełomowy

Hafner i in. publikują DreamerV3 — uogólnioną wersję Dreamera z jedną konfiguracją hiperparametrów działającą na ponad 150 zróżnicowanych zadaniach, w tym zbieraniu diamentów w Minecraft. Pierwsza demonstracja ogólności world model RL na tak szerokim spektrum środowisk.

Mastering Diverse Domains through World Models (artykuł)

2024

Genie (Google DeepMind) — interaktywny world model generujący środowiska z wideo

Bruce i in. (Google DeepMind) publikują Genie — model świata trenowany na nieznanakowanych filmach internetowych, zdolny do generowania interaktywnych środowisk 2D sterowanych przez wyuczone akcje latentne. Rozszerza paradygmat world models na generatywne symulatory środowisk.

Genie: Generative Interactive Environments (artykuł)

Źródła

World Models

World Models

Jak działa

Rozwiązany problem

Komponenty

Implementacja

Ewolucja

Źródła

Wąskie gardło obliczeniowe

Hiperparametry (konfigurowalne osie)

Paradygmat wykonania

Równoległość

Wymagania sprzętowe