HIW-500: największy dataset humanoidów w domach — 10 TB, open source

BitRobot Network, Hugging Face i Unitree Robotics opublikowały 25 czerwca 2026 roku zbiór HIW-500 (Humanoids-in-the-Wild 500) — największy otwartoźródłowy dataset teleopercji humanoidalnej zarejestrowany w prawdziwych domach. Ponad 500 godzin nagrań, 23 000 epizodów i 10 TB surowych danych zebranych w 12 mieszkaniach w Azji Południowo-Wschodniej ma bezpośrednio zaatakować bariery generalizacji, które blokują roboty domowe przed masowym wdrożeniem.

Najważniejsze w skrócie

HIW-500: 500+ godzin, 23 000 epizodów, 10+ TB danych — zebranych w 12 prawdziwych domach w Azji Płd.-Wsch. przy użyciu Unitree G1
Hugging Face LeRobot skompresował 10 TB do 2 TB bez utraty jakości — dataset dostępny na HuggingFace: BitRobot/HIW-500-LeRobot
Sprzęt: Unitree G1 (29 DoF), stereo kamera głowowa 480p/30fps, kamery IR/RGB na nadgarstkach
Zadania: ponad 10 kategorii czynności domowych (sprzątanie, porządkowanie, przenoszenie), epizody do 8 minut
Unitree G1 jest natywnie wspierany przez LeRobot — badacze mogą od razu trenować modele VLA na własnym sprzęcie G1

Dlaczego dane z prawdziwych domów są inne

Większość istniejących zbiorów danych dla humanoidów pochodzi z laboratoriów — kontrolowane oświetlenie, puste stoły, znane obiekty w znanych miejscach. Prawdziwe domy wyglądają inaczej: na kanapie leżą ubrania, na podłodze stoi wiadro, a obok biegają dzieci. Właśnie ta różnica jest sednem problemu generalizacji — robotów trenowanych wyłącznie w laboratoriach nie można bezpiecznie wysłać do przypadkowego mieszkania. HIW-500 atakuje ten problem u podstaw, zbierając dane dokładnie tam, gdzie roboty mają docelowo pracować. Unitree Robotics dostarczyło flotę robotów G1, a zbieranie danych odbyło się w 12 różnych mieszkaniach — każde z innym układem, wyposażeniem i poziomem "bałaganu".

Dataset obejmuje ponad 10 kategorii zadań domowych: zamiatanie, zbieranie śmieci, przenoszenie przedmiotów, porządkowanie szafek. Każdy epizod trwa od kilku sekund do 8 minut — długie horyzonty czasowe są celowe. Modele trenowane na krótkich kliknięciach-pick-and-place nie potrafią zaplanować sekwencji czynności. Długie epizody wymuszają naukę planowania. Każde zadanie jest podzielone na podzadania z adnotacjami — to wielopoziomowa struktura, która pozwala trenować i oceniać modele na różnych poziomach abstrakcji.

Sprzęt i setup teleopercji

Platforma sprzętowa to Unitree G1 — robot, który zdobył dużą popularność w laboratoriach badawczych dzięki cenie poniżej 30 000 USD w wersji enterprise, 29 stopniom swobody i otwartej architekturze SDK. Do HIW-500 każdy G1 wyposażono w stereo kamerę głowową (RGB, 480p, 30 fps) do percepcji przestrzennej i kamery na nadgarstkach (RGB + IR, 480p, 30 fps) — kamery IR minimalizują problem okluzji podczas manipulacji: gdy dłoń zasłania obiekt, obraz w podczerwieni nadal dostarcza informacji o pozycji i kształcie.

Pełny stan robota (29 DoF) i dane z IMU oraz odometrii były logowane w czasie rzeczywistym. Teleoperacja humanoidalnego robota o 29 stopniach swobody w ciasnym mieszkaniu jest zadaniem wymagającym miesięcy treningu dla operatorów. Zbieranie 23 000 czystych epizodów wymagało ścisłej współpracy z zespołem Unitree w zakresie wsparcia sprzętowego.

LeRobot: kompresja 10 TB do 2 TB bez utraty danych

Surowe 10 TB to zaporowy rozmiar dla małych laboratoriów — pobieranie przez łącze 1 Gb/s zajęłoby 22 godziny, a przechowanie wymagałoby specjalnej infrastruktury. Hugging Face rozwiązało ten problem przez re-encoding całego datasetu do formatu LeRobot. Wynik: 2 TB przy zachowaniu 100% wierności danych. Trajektorie, nagrania kamer i adnotacje są identyczne — zmienił się jedynie sposób kodowania. Kompresja 5:1 bez jakichkolwiek strat to znaczący wynik techniczny.

Efekt praktyczny: mniejszy lab z 10 Gbps łączem może pobrać dataset w kilka godzin. Visualizer w przeglądarce pozwala przejrzeć dowolny epizod — w oknie widać synchronizację modelu 3D robota z nagraniem kamer, instrukcjami językowymi i adnotacjami podzadań — bez instalowania czegokolwiek lokalnie. Dane są dostępne w dwóch formatach: natywnym ROSbag dla zaawansowanych użytkowników i w formacie LeRobot dla bezpośredniego użycia z frameworkiem.

Cel: benchmark 80/80 dla robotów domowych

Wang Xingxing, CEO Unitree, zdefiniował "moment ChatGPT" dla embodied AI jako osiągnięcie skuteczności 80% zadań w 80% nieznanych środowisk rzeczywistych. Istniejące datasety laboratoryjne — nawet te duże — nie nadają się do trenowania modeli pod ten benchmark, bo nie zawierają wystarczającej różnorodności domowego chaosu. HIW-500 jest pierwszym krokiem do zbudowania bazy treningowej, która mogłaby faktycznie przybliżyć modele VLA do tego celu.

Porównanie z istniejącymi datasetami pokazuje skalę nowości: Open X-Embodiment (najszerzej stosowany zbiór treningowy VLA) zawiera dane z wielu robotów, ale niemal wyłącznie z laboratoriów. DROID — najnowszy duży dataset — zbierał dane w bardziej zróżnicowanych miejscach, ale wciąż w kontrolowanych warunkach. HIW-500 jest pierwszym zbiorem tej skali zebranym wyłącznie w niemodyfikowanych domach prywatnych.

Dlaczego to ważne?

Brak danych to jeden z dwóch głównych hamulców robotyki domowej — obok niewystarczającej dexterity sprzętu. Modele takie jak GR00T, π0 czy OpenVLA są głodne danych z różnorodnych, nieustrukturyzowanych środowisk. Laboratoria nie są w stanie wygenerować tej różnorodności na skalę potrzebną do trenowania modeli o wystarczającej generalizacji. HIW-500 to pierwsza próba systemowego zebrania danych dokładnie tam, gdzie roboty mają działać. Partnerstwo z Hugging Face i LeRobot ma tu kluczowe znaczenie — platforma zapewnia infrastrukturę do dystrybucji, a format LeRobot gwarantuje kompatybilność z rosnącym ekosystemem open-source robotics. Jeśli kolejne laboratoria dotrą z analogicznymi zestawami danych z Europy, Ameryki Północnej i reszty Azji, HIW-500 może stać się punktem startowym dla ogólnoświatowego otwartego projektu zbierania danych domowych — czegoś w rodzaju Common Crawl dla embodied AI.

Co dalej?

Natywne wsparcie G1 w LeRobot umożliwia badaczom natychmiastowe trenowanie na własnym sprzęcie — wyniki pierwszych modeli behavioral cloning powinny pojawić się w ciągu kilku tygodni
BitRobot zapowiedział rozszerzenie zbioru o kolejne regiony geograficzne — dane z Europy i Ameryki Północnej zwiększyłyby zmienność środowisk i wartość datasetu dla globalnych zastosowań
Kluczowe pytanie: czy VLA wytrenowane na HIW-500 przejdą zero-shot do nieznanego domu — to test, który zweryfikuje realną wartość datasetu