Otwarty model fundamentalny NVIDIA dla robotów humanoidalnych, następca GR00T N1. Architektura flow matching transformer z pre-trenowanymi enkoderami SigLip2 (vision) i T5 (language).
Parametry
3B
parametrów
Dostęp:DownloadWdrożenie:💻 Lokalnie📱 Na urządzeniu
Przegląd
Dostęp i wdrożenie
Pobieranie
LokalnieNa urządzeniu
Wagi: Open weights
Kluczowe parametry
🧩 Parametry: 3B
✓ Fine-tuning
📥 Wejście: tekst, obraz, sensory robota, dane stanu robota
Robotyka
Bimanual manipulationDexterous manipulationRobot manipulationEmbodied task planningRobot controlScene understandingVisual grounding
Platformy
Specyfikacja techniczna
Parametry
3B
parametrów
Licencja
NVIDIA One-Way Noncommercial License
Wymagania sprzętowe
Wspierane mikroarchitektury NVIDIA: Ampere, Blackwell, Hopper, Lovelace, Jetson. Runtime: PyTorch. OS: Linux.
Funkcje:✓ Fine-tuning
Modalności
⬇ Wejście (Input)
textimagerobot_sensorsrobot_state_data
⬆ Wyjście (Output)
robot_actionsmotion_trajectoriesmanipulator_control
Możliwości i zastosowania
Natywne możliwości modelu
Rozumienie multimodalne
Zdolność modelu do łączenia i interpretowania informacji z więcej niż jednej modalności, np. tekstu i obrazu.
Kategoria: multimodal
Rozumienie obrazu
Analiza i interpretacja treści obrazów.
Kategoria: vision
Rozumowanie
Zdolność modelu do logicznego wnioskowania i rozwiązywania złożonych problemów.
Kategoria: reasoning
Planowanie
Tworzenie i realizacja planów działania dla złożonych zadań.
Kategoria: planning
Rozumowanie wieloetapowe
Prowadzenie wieloetapowego toku rozumowania w długich, złożonych zadaniach.
Kategoria: reasoning
Robotyka
Bimanual manipulationDexterous manipulationRobot manipulationEmbodied task planningRobot controlScene understandingVisual grounding
Dziedziny zastosowań
Architektura techniczna
Rdzeń architektury (Core Architecture)
Forma modelu (Model Form)
Techniki trenowania (Training Techniques)
Wdrożenie i bezpieczeństwo
🤖 Powiązane roboty
💾 Powiązane oprogramowanie
☁ Dostępny na platformach
Źródła i powiązane strony
6 źródeł
WebNVIDIA Isaac GR00T - oficjalna stronaRepoGR00T-N1.5-3B model card (Hugging Face)RepoNVIDIA/Isaac-GR00T (GitHub)PaperEagle 2: Building Post-Training Data Strategies from Scratch for Frontier Vision-Language Models (arXiv:2501.14818)Paperπ0: A Vision-Language-Action Flow Model for General Robot Control (arXiv:2410.24164)PaperFlow Straight and Fast: Learning to Generate and Transfer Data with Rectified Flow (arXiv:2209.03003)
