Robocikowo>ROBOCIKOWO
DreamerV3

DreamerV3

3 · Rodzina: Dreamer
Ogólny algorytm RL oparty o model świata, który z jednym zestawem hiperparametrów osiąga wyniki na ponad 150 zadaniach i jako pierwszy zbiera diamenty w Minecrafcie bez danych człowieka.
✓ Aktywny✓ Publiczny dostęp⚖ Open sourceModel świata📁 Dreamer
Parametry
12M – 400M
parametrów
Data premiery
10 stycznia 2023
Dostęp:DownloadWdrożenie:💻 Lokalnie

Przegląd

DreamerV3 to ogólny algorytm uczenia ze wzmocnieniem opartego o model świata, opracowany przez Danijara Hafnera, Jurgisa Pasukonisa, Jimmy'ego Ba i Timothy'ego Lillicrapa. Zaprezentowany w preprintcie z 10 stycznia 2023 (arXiv:2301.04104) i opublikowany w Nature w 2025 roku.

Model uczy się reprezentacji środowiska z surowych obserwacji (m.in. obrazu) za pomocą rekurencyjnego modelu stanu (RSSM) z dyskretnymi reprezentacjami. Polityka typu actor-critic jest trenowana na trajektoriach generowanych w wyobraźni przez model świata, bez wykonywania akcji w prawdziwym środowisku.

Wyniki

Z jednym, ustalonym zestawem hiperparametrów DreamerV3 przewyższa wyspecjalizowane metody na ponad 150 zadaniach z różnych domen (DMLab, Atari 100k/200M, Crafter, ProcGen, Minecraft, BSuite, kontynuacyjne benchmarki kontrolne). Jako pierwszy algorytm bez danych człowieka i bez curriculum zbiera diamenty w Minecrafcie z surowych pikseli i rzadkich nagród.

Skalowanie

Praca pokazuje korzystne skalowanie: większe modele (od ok. 12 mln do 400 mln parametrów) systematycznie poprawiają zarówno wynik końcowy, jak i efektywność próbkową. Zwiększanie liczby kroków gradientu dodatkowo poprawia data-efficiency.

Klasyfikacja
Model świata
Rodzina: Dreamer
Dostęp i wdrożenie
Pobieranie
Lokalnie
Wagi: Open source
Kluczowe parametry
🧩 Parametry: 12M – 400M
✓ Fine-tuning
📥 Wejście: obraz, dane strukturalne, dane stanu robota
Robotyka
Motion planningRobot controlEnvironment modelingSpatial prediction

Specyfikacja techniczna

Parametry
12M – 400M
parametrów
Licencja
MIT
Wymagania sprzętowe
Trening na pojedynczym GPU; raportowane czasy treningu od ok. 12 godzin (małe konfiguracje) do kilku dni (duże modele) na nowoczesnych GPU NVIDIA / TPU. Implementacja referencyjna oparta na JAX.
Funkcje:Fine-tuning
Modalności
⬇ Wejście (Input)
imagestructured_datarobot_state_data
⬆ Wyjście (Output)
robot_actionsstructured_data

Możliwości i zastosowania

Natywne możliwości modelu
Planowanie
Zdolność modelu do wyznaczania sekwencji działań prowadzących do celu — przewidywania skutków akcji i wyboru optymalnej ścieżki w danym środowisku.
Kategoria: planning
Robotyka
Motion planningRobot controlEnvironment modelingSpatial prediction

Wyniki benchmarków

4 benchmarki
Minecraft (Diamond)
pikselowe wejście, rzadkie nagrody, brak curriculum
first to collect diamonds without human data
📄 DreamerV3 paper (arXiv:2301.04104)
Atari 200M
jeden zestaw hiperparametrów dla wszystkich gier
state-of-the-art with single config
📄 DreamerV3 paper (arXiv:2301.04104)
DeepMind Control Suite (Proprio)
state-of-the-art
📄 DreamerV3 paper (arXiv:2301.04104)
Crafter
state-of-the-art
📄 DreamerV3 paper (arXiv:2301.04104)

Architektura techniczna

Rdzeń architektury (Core Architecture)
Forma modelu (Model Form)
Techniki trenowania (Training Techniques)