Robocikowo>ROBOCIKOWO
GR00T N1.5

GR00T N1.5

N1.5 (3B) · Rodzina: GR00T
Otwarty model fundamentalny NVIDIA dla robotów humanoidalnych, następca GR00T N1. Architektura flow matching transformer z pre-trenowanymi enkoderami SigLip2 (vision) i T5 (language).
✓ Aktywny⏳ Ograniczony dostęp⚖ Open weightsBazowy model robotycznyModel wzrok-język-akcja📁 GR00T
Parametry
3B
parametrów
Dostęp:DownloadWdrożenie:💻 Lokalnie📱 Na urządzeniu

Przegląd

NVIDIA Isaac GR00T N1.5 to otwarty model fundamentalny do uogólnionego rozumowania i umiejętności robotów humanoidalnych. Cross-embodiment model przyjmuje multimodalny input (obrazy + język) i generuje ciągłe akcje sterujące. Wersja 3B parametrów następująca po GR00T N1 (2B).

Architektura

GR00T N1.5 wykorzystuje pre-trenowany Vision Transformer (SigLip2) do kodowania obrazów z kamer robota oraz pre-trenowany Transformer (T5) do kodowania instrukcji tekstowych. Propriocepcja jest kodowana przez MLP indeksowany identyfikatorem ucieleśnienia (embodiment ID), z paddingiem do skonfigurowanej maksymalnej długości w celu obsługi proprioceptywnych wektorów o zmiennej wymiarowości.

Sekwencja akcji jest modelowana przez flow matching transformer (zaimplementowany jako Diffusion Transformer / DiT z conditioningiem przez adaptive layernorm). Transformer naprzemiennie wykonuje self-attention nad propriocepcją i akcjami oraz cross-attention do reprezentacji vision i language. W stosunku do N1 zmodyfikowano MLP-konektor między cechami vision-language a DiT, a model trenowano łącznie z celami flow matching i world-modeling.

Inferencja

W trakcie inferencji polityka próbkuje wektor szumu gaussowskiego, a następnie iteracyjnie rekonstruuje akcję o ciągłej wartości na podstawie predykcji prędkości (velocity prediction).

Dostępność i licencja

Wagi GR00T-N1.5-3B są publicznie dostępne na Hugging Face. Licencja: NVIDIA One-Way Noncommercial License — model gotowy do zastosowań niekomercyjnych. Działa na Linux z runtime PyTorch; wspierane mikroarchitektury: NVIDIA Ampere, Blackwell, Hopper, Lovelace oraz Jetson.

Klasyfikacja
Bazowy model robotycznyModel wzrok-język-akcja
Rodzina: GR00T
Dostęp i wdrożenie
Pobieranie
LokalnieNa urządzeniu
Wagi: Open weights
Kluczowe parametry
🧩 Parametry: 3B
✓ Fine-tuning
📥 Wejście: tekst, obraz, sensory robota, dane stanu robota
Robotyka
Bimanual manipulationDexterous manipulationRobot manipulationEmbodied task planningRobot controlScene understandingVisual grounding

Specyfikacja techniczna

Parametry
3B
parametrów
Licencja
NVIDIA One-Way Noncommercial License
Wymagania sprzętowe
Wspierane mikroarchitektury NVIDIA: Ampere, Blackwell, Hopper, Lovelace, Jetson. Runtime: PyTorch. OS: Linux.
Funkcje:Fine-tuning
Modalności
⬇ Wejście (Input)
textimagerobot_sensorsrobot_state_data
⬆ Wyjście (Output)
robot_actionsmotion_trajectoriesmanipulator_control

Możliwości i zastosowania

Natywne możliwości modelu
Rozumienie multimodalne
Zdolność modelu do łączenia i interpretowania informacji z więcej niż jednej modalności, np. tekstu i obrazu.
Kategoria: multimodal
Rozumienie obrazu
Analiza i interpretacja treści obrazów.
Kategoria: vision
Rozumowanie
Zdolność modelu do logicznego wnioskowania i rozwiązywania złożonych problemów.
Kategoria: reasoning
Planowanie
Tworzenie i realizacja planów działania dla złożonych zadań.
Kategoria: planning
Rozumowanie wieloetapowe
Prowadzenie wieloetapowego toku rozumowania w długich, złożonych zadaniach.
Kategoria: reasoning
Robotyka
Bimanual manipulationDexterous manipulationRobot manipulationEmbodied task planningRobot controlScene understandingVisual grounding

Architektura techniczna

Rdzeń architektury (Core Architecture)
Forma modelu (Model Form)
Techniki trenowania (Training Techniques)

Wdrożenie i bezpieczeństwo

🤖 Powiązane roboty
☁ Dostępny na platformach