Wnioskowanie

Model-Based RL

1991AktywnyOpublikowano: 8 czerwca 2026Aktualizacja: 8 czerwca 2026Opublikowany

Paradygmat uczenia ze wzmocnieniem, w którym agent uczy się modelu świata (dynamiki i nagrody) i używa go do planowania lub treningu polityki w wyobraźni.

Kluczowa innowacja

Agent uczy się modelu dynamiki środowiska i wykorzystuje go do planowania lub generowania syntetycznych doświadczeń, co radykalnie zwiększa próbkową efektywność uczenia w porównaniu do model-free RL.

Kategoria

Wnioskowanie

Poziom abstrakcji

Paradygmat

Poziom operacji

TreningInferencjaŚrodowisko agentowe

Zastosowania

Sterowanie robotem z ograniczoną ilością danychRobotyczne manipulacje i lokomocja (Dreamer, TD-MPC)Gry planszowe i strategiczne (MuZero, AlphaZero)Sterowanie z pikseli (PlaNet, Dreamer)Sim-to-real z modelem dynamikiUczenie polityk w drogich symulacjach (CFD, fizyka cząstek)

Jak działa

Pętla MBRL składa się z trzech kroków powtarzanych iteracyjnie: (1) Zbieranie danych — agent działa w środowisku polityką eksploracyjną i zapisuje przejścia (s,a,r,s'). (2) Uczenie modelu — sieć dynamiki (deterministyczna, probabilistyczna, ensemble lub latentna jak RSSM) jest trenowana na zebranych danych do przewidywania s' i r. (3) Wykorzystanie modelu — możliwości to: planowanie (CEM/MPC, MCTS w MuZero), trening polityki na rolloutach z modelu (Dyna, Dreamer), bezpośrednie różniczkowanie strategii przez model (analytic policy gradient, SVG, PILCO). Aktualna polityka generuje nowe dane, model jest dotrenowywany. Kluczowe techniki: ensemble dla niepewności (PETS), planowanie horyzontu skończonego, KL/regulizacja przeciw model exploitation, latentne reprezentacje dla wysokowymiarowych obserwacji (Dreamer, RSSM).

Rozwiązany problem

Model-free RL wymaga milionów lub miliardów interakcji ze środowiskiem, co jest niewykonalne dla rzeczywistych robotów i drogich symulacji. MBRL drastycznie redukuje liczbę potrzebnych próbek przez uczenie polityki w „wyobraźni" lub planowanie z użyciem nauczonego modelu.

Komponenty

Dynamics modelPredykcja s' z (s,a)

Sieć neuronowa lub model probabilistyczny ucząca się f(s,a) → s'. Może być deterministyczna, probabilistyczna (Gauss), ensemble lub latentna (RSSM).

Deterministic MLPPojedyncza sieć przewidująca s'.

Probabilistic ensemble (PETS)Kilka sieci probabilistycznych dla estymacji niepewności epistemicznej i aleatorycznej.

Latent dynamics (RSSM, Dreamer)Dynamika w przestrzeni latentnej, encoder z pikseli.

Gaussian Process (PILCO)GP modeluje dynamikę z analityczną propagacją niepewności.

Oficjalna

Reward modelPredykcja r(s,a) lub r(s)

Funkcja nagrody zwykle uczona razem z dynamiką, niezbędna do planowania i imagination-based RL.

Planner / policyWybór akcji na podstawie modelu

Komponent decyzyjny: planer (CEM, MPPI, MCTS) lub trenowana polityka (actor-critic w wyobraźni jak Dreamer).

CEM / MPPISample-based planning z populacji trajektorii.

MCTS (MuZero, AlphaZero)Drzewo Monte Carlo z heurystyką sieci wartości i polityki.

Actor-critic in imagination (Dreamer)Polityka i wartość uczone na rolloutach modelu.

Oficjalna

Replay bufferZbiór rzeczywistych przejść (s,a,r,s')

Bufor doświadczeń używany do uczenia modelu i często też polityki (Dyna).

Implementacja

Implementacje referencyjne

PETS (handful-of-trials)

Python · Kurtland Chua

Oficjalna

PlaNet (official)

Python · Google Research

Oficjalna

DreamerV3 (official, JAX)

Python (JAX) · Danijar Hafner

Oficjalna

MuZero general

Python · Werner Duvaud

TD-MPC2 (official)

Python · Nicklas Hansen

Oficjalna

MBRL-Lib (Meta)

Python · Meta AI Research

Oficjalna

Pułapki implementacyjne

Model exploitationKrytyczna

Optymalizator akcji znajduje obszary stanu, gdzie model jest niedokładny i przewiduje fałszywie wysoką nagrodę.

Rozwiązanie:Ensemble dla niepewności, ograniczenie horyzontu, kary za niepewność, KL-regularizacja w Dreamer.

Compounding model errorWysoka

Drobne błędy modelu kumulują się wykładniczo wzdłuż długich rolloutów.

Rozwiązanie:Krótkie horyzonty, branching rollouts (MBPO), latentne reprezentacje stabilizujące dynamikę.

Distribution shiftWysoka

Model uczony na rzeczywistych danych nie działa dobrze na rolloutach generowanych aktualną polityką.

Rozwiązanie:Iteracyjne dotrenowywanie modelu na nowych danych po każdej aktualizacji polityki.

Wybór klasy modelu vs koszt obliczeniowyŚrednia

GP (PILCO) skaluje się słabo do wysokowymiarowych obserwacji; ensemble sieci jest tańszy ale gorszy w oszacowaniu niepewności epistemicznej.

Rozwiązanie:Latentne modele rekurencyjne (RSSM) dla pikseli, ensembles probabilistyczne dla low-dim, hybrydowe podejścia.

Ewolucja

Oryginalny paper · 1991 · SIGART Bulletin / AAAI 1991 · Richard S. Sutton

Dyna, an Integrated Architecture for Learning, Planning, and Reacting

Richard S. Sutton

1991

Dyna — pierwsza zintegrowana architektura MBRL

Punkt przełomowy

Sutton wprowadza Dyna, łączącą uczenie modelu, planowanie i działanie w jednym systemie.

2011

PILCO — model probabilistyczny GP

Deisenroth & Rasmussen pokazują, że Gaussian Process jako model dynamiki osiąga rekordową próbkową efektywność na zadaniach kontrolnych.

PILCO: A Model-Based and Data-Efficient Approach to Policy Search (artykuł)

2018

PETS — probabilistic ensembles + CEM

Chua i in. ustanawiają silny baseline MBRL z ensemblem sieci probabilistycznych i planowaniem CEM.

Deep Reinforcement Learning in a Handful of Trials using Probabilistic Dynamics Models (artykuł)

2019

PlaNet — pierwszy MBRL z pikseli na poziomie SoTA

Punkt przełomowy

Hafner i in. wprowadzają RSSM i pokazują skuteczne planowanie w przestrzeni latentnej z surowych obrazów.

RSSM (koncept)

2019

MuZero — MBRL bez znajomości reguł gry

Punkt przełomowy

DeepMind pokazuje, że agent uczący się modelu osiąga poziom AlphaZero w Go, szachach i Atari bez dostępu do reguł środowiska.

Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model (artykuł)

2019

MBPO — Dyna ze świadomością niepewności

Janner i in. uzyskują wyniki porównywalne z SAC przy wielokrotnie mniejszej liczbie próbek.

When to Trust Your Model: Model-Based Policy Optimization (artykuł)

2020

Dreamer / DreamerV2

Trening polityki actor-critic w wyobraźni nad RSSM osiąga ludzki poziom na Atari z pojedynczego GPU.

RSSM (koncept)

2023

DreamerV3 — uniwersalne MBRL

Punkt przełomowy

Jedna konfiguracja agenta MBRL osiąga silne wyniki na 150+ zadaniach (Atari, DMC, Minecraft, Crafter) bez tuningu.

Mastering Diverse Domains through World Models (artykuł)

2022

TD-MPC — łączenie planowania z value learning

Hansen i in. łączą krótkohoryzontowe MPC z nauczoną funkcją wartości, osiągając SoTA na DMC.

Temporal Difference Learning for Model Predictive Control (artykuł)

Źródła

Dyna, an Integrated Architecture for Learning, Planning, and Reacting

Paper

ACM SIGART

PILCO: A Model-Based and Data-Efficient Approach to Policy Search

Paper

ICML 2011

Deep Reinforcement Learning in a Handful of Trials using Probabilistic Dynamics Models (PETS)

Paper

arXiv / NeurIPS 2018

Learning Latent Dynamics for Planning from Pixels (PlaNet)

Paper

arXiv / ICML 2019

Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model (MuZero)

Paper

arXiv / Nature 2020

When to Trust Your Model: Model-Based Policy Optimization (MBPO)

Paper

arXiv / NeurIPS 2019

Mastering Diverse Domains through World Models (DreamerV3)

Paper

arXiv

Temporal Difference Learning for Model Predictive Control (TD-MPC)

Paper

arXiv / ICML 2022

Model-Based RL

Jak działa

Rozwiązany problem

Komponenty

Implementacja

Ewolucja

Źródła

Hiperparametry (konfigurowalne osie)

Paradygmat wykonania

Równoległość

Wymagania sprzętowe