DreamerV3

3 · Rodzina: Dreamer

Ogólny algorytm RL oparty o model świata, który z jednym zestawem hiperparametrów osiąga wyniki na ponad 150 zadaniach i jako pierwszy zbiera diamenty w Minecrafcie bez danych człowieka.

✓ Aktywny✓ Publiczny dostęp⚖ Open sourceModel świata📁 Dreamer

Parametry

12M – 400M

parametrów

Data premiery

10 stycznia 2023

🔬Google DeepMindLab badawczy

Dostęp:DownloadWdrożenie:💻 Lokalnie

Przegląd

DreamerV3 to ogólny algorytm uczenia ze wzmocnieniem opartego o model świata, opracowany przez Danijara Hafnera, Jurgisa Pasukonisa, Jimmy'ego Ba i Timothy'ego Lillicrapa. Zaprezentowany w preprintcie z 10 stycznia 2023 (arXiv:2301.04104) i opublikowany w Nature w 2025 roku.

Model uczy się reprezentacji środowiska z surowych obserwacji (m.in. obrazu) za pomocą rekurencyjnego modelu stanu (RSSM) z dyskretnymi reprezentacjami. Polityka typu actor-critic jest trenowana na trajektoriach generowanych w wyobraźni przez model świata, bez wykonywania akcji w prawdziwym środowisku.

Wyniki

Z jednym, ustalonym zestawem hiperparametrów DreamerV3 przewyższa wyspecjalizowane metody na ponad 150 zadaniach z różnych domen (DMLab, Atari 100k/200M, Crafter, ProcGen, Minecraft, BSuite, kontynuacyjne benchmarki kontrolne). Jako pierwszy algorytm bez danych człowieka i bez curriculum zbiera diamenty w Minecrafcie z surowych pikseli i rzadkich nagród.

Skalowanie

Praca pokazuje korzystne skalowanie: większe modele (od ok. 12 mln do 400 mln parametrów) systematycznie poprawiają zarówno wynik końcowy, jak i efektywność próbkową. Zwiększanie liczby kroków gradientu dodatkowo poprawia data-efficiency.

Klasyfikacja

Model świata

Rodzina: Dreamer

Dostęp i wdrożenie

Pobieranie

Lokalnie

Wagi: Open source

Kluczowe parametry

🧩 Parametry: 12M – 400M

✓ Fine-tuning

📥 Wejście: obraz, dane strukturalne, dane stanu robota

Robotyka

Motion planningRobot controlEnvironment modelingSpatial prediction

Specyfikacja techniczna

Parametry

12M – 400M

parametrów

Licencja

MIT

Wymagania sprzętowe

Trening na pojedynczym GPU; raportowane czasy treningu od ok. 12 godzin (małe konfiguracje) do kilku dni (duże modele) na nowoczesnych GPU NVIDIA / TPU. Implementacja referencyjna oparta na JAX.

Funkcje:✓ Fine-tuning

Modalności

⬇ Wejście (Input)

imagestructured_datarobot_state_data

⬆ Wyjście (Output)

robot_actionsstructured_data

Możliwości i zastosowania

Natywne możliwości modelu

Planowanie

Tworzenie i realizacja planów działania dla złożonych zadań.

Kategoria: planning

Robotyka

Motion planningRobot controlEnvironment modelingSpatial prediction

Wyniki benchmarków

4 benchmarki

Minecraft (Diamond)

pikselowe wejście, rzadkie nagrody, brak curriculum

first to collect diamonds without human data

📄 DreamerV3 paper (arXiv:2301.04104)

Atari 200M

jeden zestaw hiperparametrów dla wszystkich gier

state-of-the-art with single config

📄 DreamerV3 paper (arXiv:2301.04104)

DeepMind Control Suite (Proprio)

state-of-the-art

📄 DreamerV3 paper (arXiv:2301.04104)

Crafter

state-of-the-art

📄 DreamerV3 paper (arXiv:2301.04104)

Architektura techniczna

Rdzeń architektury (Core Architecture)

GRGRU

Forma modelu (Model Form)

WMWorld Models WAWAM

Techniki trenowania (Training Techniques)

RLRL

Źródła i powiązane strony

4 źródła

PaperMastering Diverse Domains through World Models (arXiv:2301.04104)arxiv.org WebDreamerV3 — project website (danijar.com/dreamerv3)danijar.com Repodanijar/dreamerv3 (GitHub, MIT license)github.com PaperMastering diverse control tasks through world models (Nature, 2025)nature.com

Przeglądaj powiązane tematy

📁 Dreamer 🧠 GRU 🧠 World Models 🧠 WAM Wszystkie modele world model