Ogólny algorytm RL oparty o model świata, który z jednym zestawem hiperparametrów osiąga wyniki na ponad 150 zadaniach i jako pierwszy zbiera diamenty w Minecrafcie bez danych człowieka.
Parametry
12M – 400M
parametrów
Data premiery
10 stycznia 2023
Dostęp:DownloadWdrożenie:💻 Lokalnie
Przegląd
Dostęp i wdrożenie
Pobieranie
Lokalnie
Wagi: Open source
Kluczowe parametry
🧩 Parametry: 12M – 400M
✓ Fine-tuning
📥 Wejście: obraz, dane strukturalne, dane stanu robota
Robotyka
Motion planningRobot controlEnvironment modelingSpatial prediction
Specyfikacja techniczna
Parametry
12M – 400M
parametrów
Licencja
MIT
Wymagania sprzętowe
Trening na pojedynczym GPU; raportowane czasy treningu od ok. 12 godzin (małe konfiguracje) do kilku dni (duże modele) na nowoczesnych GPU NVIDIA / TPU. Implementacja referencyjna oparta na JAX.
Funkcje:✓ Fine-tuning
Modalności
⬇ Wejście (Input)
imagestructured_datarobot_state_data
⬆ Wyjście (Output)
robot_actionsstructured_data
Możliwości i zastosowania
Natywne możliwości modelu
Planowanie
Zdolność modelu do wyznaczania sekwencji działań prowadzących do celu — przewidywania skutków akcji i wyboru optymalnej ścieżki w danym środowisku.
Kategoria: planning
Robotyka
Motion planningRobot controlEnvironment modelingSpatial prediction
Wyniki benchmarków
4 benchmarki
Minecraft (Diamond)
pikselowe wejście, rzadkie nagrody, brak curriculum
first to collect diamonds without human data
📄 DreamerV3 paper (arXiv:2301.04104)
Atari 200M
jeden zestaw hiperparametrów dla wszystkich gier
state-of-the-art with single config
📄 DreamerV3 paper (arXiv:2301.04104)
DeepMind Control Suite (Proprio)
state-of-the-art
📄 DreamerV3 paper (arXiv:2301.04104)
Crafter
state-of-the-art
📄 DreamerV3 paper (arXiv:2301.04104)
Architektura techniczna
Rdzeń architektury (Core Architecture)
Forma modelu (Model Form)
Techniki trenowania (Training Techniques)
