GR00T N1.5

N1.5 (3B) · Rodzina: GR00T

Otwarty model fundamentalny NVIDIA dla robotów humanoidalnych, następca GR00T N1. Architektura flow matching transformer z pre-trenowanymi enkoderami SigLip2 (vision) i T5 (language).

✓ Aktywny⏳ Ograniczony dostęp⚖ Open weightsBazowy model robotycznyModel wzrok-język-akcja📁 GR00T

Parametry

parametrów

🏢NVIDIAProducent

Dostęp:DownloadWdrożenie:💻 Lokalnie📱 Na urządzeniu

Przegląd

NVIDIA Isaac GR00T N1.5 to otwarty model fundamentalny do uogólnionego rozumowania i umiejętności robotów humanoidalnych. Cross-embodiment model przyjmuje multimodalny input (obrazy + język) i generuje ciągłe akcje sterujące. Wersja 3B parametrów następująca po GR00T N1 (2B).

Architektura

GR00T N1.5 wykorzystuje pre-trenowany Vision Transformer (SigLip2) do kodowania obrazów z kamer robota oraz pre-trenowany Transformer (T5) do kodowania instrukcji tekstowych. Propriocepcja jest kodowana przez MLP indeksowany identyfikatorem ucieleśnienia (embodiment ID), z paddingiem do skonfigurowanej maksymalnej długości w celu obsługi proprioceptywnych wektorów o zmiennej wymiarowości.

Sekwencja akcji jest modelowana przez flow matching transformer (zaimplementowany jako Diffusion Transformer / DiT z conditioningiem przez adaptive layernorm). Transformer naprzemiennie wykonuje self-attention nad propriocepcją i akcjami oraz cross-attention do reprezentacji vision i language. W stosunku do N1 zmodyfikowano MLP-konektor między cechami vision-language a DiT, a model trenowano łącznie z celami flow matching i world-modeling.

Inferencja

W trakcie inferencji polityka próbkuje wektor szumu gaussowskiego, a następnie iteracyjnie rekonstruuje akcję o ciągłej wartości na podstawie predykcji prędkości (velocity prediction).

Dostępność i licencja

Wagi GR00T-N1.5-3B są publicznie dostępne na Hugging Face. Licencja: NVIDIA One-Way Noncommercial License — model gotowy do zastosowań niekomercyjnych. Działa na Linux z runtime PyTorch; wspierane mikroarchitektury: NVIDIA Ampere, Blackwell, Hopper, Lovelace oraz Jetson.

Klasyfikacja

Bazowy model robotycznyModel wzrok-język-akcja

Rodzina: GR00T

Zastosowania

Manipulacja robotyczna Trening polityk robotów Symulacja i dane syntetyczne

Dostęp i wdrożenie

Pobieranie

LokalnieNa urządzeniu

Wagi: Open weights

Kluczowe parametry

🧩 Parametry: 3B

✓ Fine-tuning