Otwarty model fundamentalny NVIDIA dla robotów humanoidalnych. Architektura dual-system (VLM + Diffusion Transformer) generująca akcje manipulacyjne.
Parametry
2B
parametrów
Data premiery
18 marca 2025
Dostęp:DownloadWdrożenie:💻 Lokalnie📱 Na urządzeniu
Przegląd
Dostęp i wdrożenie
Pobieranie
LokalnieNa urządzeniu
Wagi: Open weights
Kluczowe parametry
🧩 Parametry: 2B
✓ Fine-tuning
📥 Wejście: tekst, obraz, sensory robota, dane stanu robota
Robotyka
Bimanual manipulationDexterous manipulationRobot manipulationEmbodied task planningRobot controlScene understandingVisual grounding
Platformy
Specyfikacja techniczna
Parametry
2B
parametrów
Licencja
NVIDIA Open Model License
Wymagania sprzętowe
Post-trening: NVIDIA RTX A6000 lub RTX 4090 (minimum); zalecane NVIDIA DGX Spark / DGX H100. Inferencja: NVIDIA RTX A6000 lub NVIDIA Jetson AGX Orin.
Funkcje:✓ Fine-tuning
Modalności
⬇ Wejście (Input)
textimagerobot_sensorsrobot_state_data
⬆ Wyjście (Output)
robot_actionsmotion_trajectoriesmanipulator_control
Możliwości i zastosowania
Natywne możliwości modelu
Rozumienie multimodalne
Zdolność modelu do łączenia i interpretowania informacji z więcej niż jednej modalności, np. tekstu i obrazu.
Kategoria: multimodal
Rozumienie obrazu
Analiza i interpretacja treści obrazów.
Kategoria: vision
Rozumowanie
Zdolność modelu do logicznego wnioskowania i rozwiązywania złożonych problemów.
Kategoria: reasoning
Planowanie
Tworzenie i realizacja planów działania dla złożonych zadań.
Kategoria: planning
Rozumowanie wieloetapowe
Prowadzenie wieloetapowego toku rozumowania w długich, złożonych zadaniach.
Kategoria: reasoning
Robotyka
Bimanual manipulationDexterous manipulationRobot manipulationEmbodied task planningRobot controlScene understandingVisual grounding
Dziedziny zastosowań
Wyniki benchmarków
4 benchmarki
RoboCasa
success rate · 100 demonstracji per zadanie
32.1%%
📄 GR00T N1 paper (arXiv:2503.14734)
DexMG
success rate · 100 demonstracji per zadanie
66.5%%
📄 GR00T N1 paper (arXiv:2503.14734)
GR-1 simulation suite
success rate · 100 demonstracji per zadanie
50.0%%
📄 GR00T N1 paper (arXiv:2503.14734)
Real-world tabletop (full data, GR-1 humanoid)
average policy success rate · Pełny zbiór danych; zadania pick-and-place, articulated, industrial, coordination
76.8%%
📄 NVIDIA Developer Blog (Mar 2025)
Architektura techniczna
Rdzeń architektury (Core Architecture)
Forma modelu (Model Form)
Techniki trenowania (Training Techniques)
Wdrożenie i bezpieczeństwo
🤖 Powiązane roboty
💾 Powiązane oprogramowanie
☁ Dostępny na platformach
