Robocikowo>ROBOCIKOWO
GR00T N1

GR00T N1

N1 (2B) · Rodzina: GR00T
Otwarty model fundamentalny NVIDIA dla robotów humanoidalnych. Architektura dual-system (VLM + Diffusion Transformer) generująca akcje manipulacyjne.
✓ Aktywny✓ Publiczny dostęp⚖ Open weightsBazowy model robotycznyModel wzrok-język-akcja📁 GR00T
Parametry
2B
parametrów
Data premiery
18 marca 2025
Dostęp:DownloadWdrożenie:💻 Lokalnie📱 Na urządzeniu

Przegląd

NVIDIA Isaac GR00T N1 to otwarty model fundamentalny dla uogólnionego rozumowania i umiejętności robotów humanoidalnych. Cross-embodiment model przyjmuje multimodalny input (obrazy + język naturalny) i generuje ciągłe akcje sterujące dla robotów wykonujących zadania manipulacyjne.

Architektura

GR00T N1 używa architektury dual-system inspirowanej ludzką kognicją: System 2 to Vision-Language Model (oparty na NVIDIA-Eagle z SmolLM-1.7B) odpowiedzialny za rozumowanie i planowanie; System 1 to Diffusion Transformer generujący ciągłe trajektorie ruchu robota. Oba systemy są ściśle sprzężone i optymalizowane wspólnie podczas post-treningu.

Trening

Model trenowany na piramidalnym zbiorze danych: dane internetowe i ludzkie wideo u podstawy, dane syntetyczne generowane na NVIDIA Omniverse w środku, oraz dane z prawdziwych robotów (teleoperacja) na szczycie. Połączenie 750 tys. syntetycznych trajektorii (wygenerowanych w 11 godzin za pomocą Isaac GR00T Blueprint) z danymi rzeczywistymi dało 40% poprawę wydajności względem treningu wyłącznie na danych rzeczywistych.

Dostępność

Wagi modelu GR00T-N1-2B są publicznie dostępne na Hugging Face. Kod do fine-tuningu i inferencji w PyTorch dostępny jest na GitHub (NVIDIA/Isaac-GR00T). Minimalna konfiguracja do post-treningu: jedna karta NVIDIA RTX A6000 lub RTX 4090. Inferencja możliwa na NVIDIA Jetson AGX Orin.

Klasyfikacja
Bazowy model robotycznyModel wzrok-język-akcja
Rodzina: GR00T
Dostęp i wdrożenie
Pobieranie
LokalnieNa urządzeniu
Wagi: Open weights
Kluczowe parametry
🧩 Parametry: 2B
✓ Fine-tuning
📥 Wejście: tekst, obraz, sensory robota, dane stanu robota
Robotyka
Bimanual manipulationDexterous manipulationRobot manipulationEmbodied task planningRobot controlScene understandingVisual grounding

Specyfikacja techniczna

Parametry
2B
parametrów
Licencja
NVIDIA Open Model License
Wymagania sprzętowe
Post-trening: NVIDIA RTX A6000 lub RTX 4090 (minimum); zalecane NVIDIA DGX Spark / DGX H100. Inferencja: NVIDIA RTX A6000 lub NVIDIA Jetson AGX Orin.
Funkcje:Fine-tuning
Modalności
⬇ Wejście (Input)
textimagerobot_sensorsrobot_state_data
⬆ Wyjście (Output)
robot_actionsmotion_trajectoriesmanipulator_control

Możliwości i zastosowania

Natywne możliwości modelu
Rozumienie multimodalne
Zdolność modelu do łączenia i interpretowania informacji z więcej niż jednej modalności, np. tekstu i obrazu.
Kategoria: multimodal
Rozumienie obrazu
Analiza i interpretacja treści obrazów.
Kategoria: vision
Rozumowanie
Zdolność modelu do logicznego wnioskowania i rozwiązywania złożonych problemów.
Kategoria: reasoning
Planowanie
Tworzenie i realizacja planów działania dla złożonych zadań.
Kategoria: planning
Rozumowanie wieloetapowe
Prowadzenie wieloetapowego toku rozumowania w długich, złożonych zadaniach.
Kategoria: reasoning
Robotyka
Bimanual manipulationDexterous manipulationRobot manipulationEmbodied task planningRobot controlScene understandingVisual grounding

Wyniki benchmarków

4 benchmarki
RoboCasa
success rate · 100 demonstracji per zadanie
32.1%%
📄 GR00T N1 paper (arXiv:2503.14734)
DexMG
success rate · 100 demonstracji per zadanie
66.5%%
📄 GR00T N1 paper (arXiv:2503.14734)
GR-1 simulation suite
success rate · 100 demonstracji per zadanie
50.0%%
📄 GR00T N1 paper (arXiv:2503.14734)
Real-world tabletop (full data, GR-1 humanoid)
average policy success rate · Pełny zbiór danych; zadania pick-and-place, articulated, industrial, coordination
76.8%%
📄 NVIDIA Developer Blog (Mar 2025)

Architektura techniczna

Rdzeń architektury (Core Architecture)
Forma modelu (Model Form)
Techniki trenowania (Training Techniques)

Wdrożenie i bezpieczeństwo

🤖 Powiązane roboty
☁ Dostępny na platformach