
Xiaomi CyberOne
Pełnowymiarowy humanoidalny prototyp Xiaomi zaprezentowany 11 sierpnia 2022 r. — 177 cm wzrostu, 52 kg, 21 stopni swobody, z modułem widzenia głębi MiSense i silnikiem rozpoznawania mowy oraz emocji.
- Badania

Percepcja · Percepcja i wizja
4.0 (LLM integration)·Xiaomi
MiAI Environment Voice & Semantic Recognition Engine to wewnętrzny stos AI Xiaomi do rozpoznawania mowy ASR (Automatic Speech Recognition), zrozumienia języka naturalnego (NLU) oraz fuzji multimodalnej z kamerami i sensorami głębi. Silnik powstał w 2017 r. jako część platformy MiAI dla asystentów głosowych (XiaoAI) i został rozszerzony w 2022 r. dla humanoida Xiaomi CyberOne.
Architektura silnika składa się z trzech warstw: front-end audio (beamforming z 6-mikrofonowej tablicy, AEC, beamforming i denoising MetricGAN), ASR (model end-to-end Conformer-CTC dla mandaryńskiego i kantońskiego, transducer dla angielskiego), NLU (slot-filling z fine-tuned PaLM2-wariant). Dla CyberOne dodatkowo: fuzja głosu z wizją (face direction, gesture) i lokalizacja źródła dźwięku.
Silnik działa hybrydowo: wakeword detection i basic intents offline (na chipie Xiaomi Surge G1 w CyberOne), pełne ASR/NLU w chmurze Xiaomi MiAI Cloud. Wykorzystywany jest również w Xiaomi Smart Home, Mi Mix Alpha, robotach domowych i CyberDog 2.
Perception Stack obejmuje warstwy oprogramowania przetwarzające dane z kamer, LiDAR-ów, IMU, mikrofonów i innych sensorów w celu rozpoznania otoczenia, lokalizacji, detekcji obiektów i interpretacji sceny.
Runtime to środowisko lub warstwa uruchomieniowa wykorzystywana do wykonywania kodu, ładowania bibliotek, obsługi zależności i działania aplikacji lub usług w czasie rzeczywistym albo w czasie pracy systemu.
API Library to biblioteka udostępniająca interfejsy programistyczne do komunikacji z urządzeniem, usługą lub systemem. W praktyce może stanowić lekką warstwę integracyjną opartą na oficjalnym API producenta lub projekcie open-source.
Perception oznacza rolę oprogramowania przetwarzającego dane z kamer, LiDAR-ów, IMU i innych sensorów w celu wykrywania obiektów, rozpoznawania sceny, lokalizacji, mapowania i interpretacji środowiska.
API Access oznacza rolę oprogramowania udostępniającego interfejs programistyczny do komunikacji z robotem, sensorem, usługą lub platformą, umożliwiający tworzenie integracji i aplikacji klienckich.
Xiaomi CyberOne, CyberDog 2, asystent XiaoAI (300M+ urządzeń), Xiaomi Smart Home Hub, Xiaomi SU7 (samochód elektryczny, voice cockpit).
Brak publicznej społeczności — closed-source stack. Wewnętrzny zespół Xiaomi AI Lab: 1500+ inżynierów.
C++ to język programowania szeroko wykorzystywany w robotyce, systemach embedded, middleware, sterowaniu i przetwarzaniu danych, szczególnie tam, gdzie istotna jest wydajność oraz bliska integracja ze sprzętem.
Python to wysokopoziomowy język programowania szeroko stosowany w robotyce, AI, computer vision, automatyzacji, testach i szybkiej integracji komponentów sprzętowych oraz software'owych.
Ubuntu 22.04 LTS to długoterminowo wspierana wersja systemu Linux wykorzystywana w robotyce, AI, systemach edge i środowiskach programistycznych. Stanowi popularną bazę dla nowszych stosów oprogramowania oraz dystrybucji ROS 2.
JetPack Linux oznacza środowisko systemowe i software'owe dla platform NVIDIA Jetson, wykorzystywane do uruchamiania aplikacji AI, computer vision i robotyki edge. W praktyce bazuje na Linuxie i pakietach NVIDIA dla Jetson.
Wakeword model ~12 MB on-device, pełny ASR offline ~280 MB. Cloud inference wymaga połączenia 1+ Mbps.
Dystrybucja prekompilowanych binarnych plików wykonywalnych lub bibliotek przez bezpośrednie pobieranie (wget, curl, instalator .sh, .exe, .pkg) ze strony producenta, bez pośrednictwa menedżera pakietów. Stosowane dla: komercyjnych SDK robotów bez publicznego menedżera pakietów, własnościowych komponentów oprogramowania przemysłowego, narzędzi standalone nie wymagających zarządzania zależnościami. Przykłady w robotyce: pobieranie instalatora ze strony producenta robota, skrypt bootstrap.sh SDK, archiwum .tar.gz z bibliotekami. Wady: brak automatycznych aktualizacji, brak zarządzania zależnościami, konieczność ręcznej weryfikacji integralności (checksum SHA256), ryzyko rozbieżności wersji między różnymi komponentami, trudność w zarządzaniu na flocie wielu robotów. Zalety: prostota dla dostawcy (nie wymaga integracji z menedżerem pakietów), pełna kontrola nad tym co i kiedy jest aktualizowane. Stosowane gdy producent sprzętu udostępnia SDK wyłącznie w tej formie (firmware tools, calibration software, proprietary middleware).
Mechanizm zdalnej aktualizacji oprogramowania na robotach w terenie bez fizycznego dostępu do urządzenia, przez sieć (Wi-Fi, 5G, Ethernet). Kluczowy element infrastruktury floty robotów produkcyjnych. Implementacje: Mender.io (open source OTA dla Linux embedded, obsługuje Yocto i Ubuntu Core), balena.io (kontenerowy OTA oparty na Docker), SWUpdate (open source, powszechny w Yocto/OpenEmbedded), RAUC (robust update framework), Ubuntu Core Snap Store (automatyczne aktualizacje snaps), AWS IoT Greengrass (OTA dla urządzeń edge), Azure IoT Hub Device Update. Wymagania dla OTA w robotyce: atomic updates (aktualizacja albo się powiodła w całości, albo nie – brak stanu pośredniego), A/B partition scheme (aktualizacja na nieaktywnej partycji, przełączenie po sukcesie), automatic rollback przy błędzie startu, delta updates (przesyłanie tylko zmian – ważne przy ograniczonym paśmie 4G/5G), cryptographic signing (weryfikacja integralności aktualizacji). Integralny element systemów zarządzania flotą AMR i humanoidów deployowanych w dużej skali.
64-bitowa architektura ARM (Advanced RISC Machine) w wersji ARMv8-A i nowszych – dominująca architektura w embedded computing, robotyce mobilnej i edge AI. Dwie nazwy oznaczają to samo: ARM64 (nazwa stosowana przez Apple i w kontekście macOS/iOS), AArch64 (oficjalna nazwa architektury ARM, używana w Linuksie i ekosystemie embedded). Absolutnie dominująca architektura w nowoczesnej robotyce mobilnej i humanoidalnej: NVIDIA Jetson (Orin NX, AGX Orin – Cortex-A78AE), Raspberry Pi 4/5 (Cortex-A72/A76), Qualcomm Robotics RB5/RB6 (Kryo), Apple M1/M2/M3 (dla stacji deweloperskich macOS), procesory w smartfonach używanych jako moduły robotyczne. Oficjalne wsparcie ROS 2 tier-1 dla aarch64 od dystrybucji Humble – pakiety apt dostępne przez packages.ros.org dla Ubuntu 22.04/24.04 aarch64. Unitree SDK2 dostępne dla aarch64 (target: Jetson Orin NX w G1). Boston Dynamics Spot: Qualcomm aarch64. Zalety wobec x86_64: znacznie niższy pobór energii (TDP 5–65W vs 45–125W), lepsza wydajność na wat, wbudowane NPU/GPU dla edge AI, mniejszy footprint fizyczny. Ograniczenia: historycznie mniejsza dostępność prebuildowanych pakietów (szybko zmniejsza się), niektóre biblioteki x86-only nie są portowane.
Platforma obliczeniowa Qualcomm Snapdragon oparta na AArch64 (własne rdzenie Kryo lub licencjonowane Cortex-A) z zintegrowanym GPU Adreno i NPU (Neural Processing Unit) Hexagon DSP. Wysoka wydajność AI na watt – przewaga nad NVIDIA Jetson przy zastosowaniach bateryjnych. Platformy robotyczne Qualcomm: Qualcomm Robotics RB5 (Snapdragon 865, Hexagon 698 DSP, 8 GB RAM), RB6 (Snapdragon 888, Hexagon 780), RB3 Gen 2 (Snapdragon 6490). Boston Dynamics Spot: Snapdragon jako główny procesor mobilny. Drony DJI (wybrane modele). Wsparcie oprogramowania: Qualcomm AI Stack (QNN – Qualcomm Neural Network SDK, SNPE – Snapdragon Neural Processing Engine), ROS 2 na Ubuntu for Snapdragon, OpenCV z Hexagon DSP acceleration. Hexagon DSP umożliwia inference modeli ML z bardzo niskim poborem energii (idle: mW, active: 1–5W). Ograniczenia: mniejszy ekosystem narzędzi deweloperskich niż NVIDIA Jetson, SNPE mniej popularny niż TensorRT, ograniczone wsparcie dla CUDA-only bibliotek. Rosnące wsparcie przez Qualcomm AI Hub (gotowe modele zoptymalizowane pod Snapdragon). Preferowana platforma w robotyce mobilnej (drony, roboty kołowe) gdzie priorytetem jest autonomia baterii.
Wysokowydajny framework RPC oparty na HTTP/2 i Protocol Buffers, opracowany przez Google. Stosowany w cloud robotics i mikroserwisowej architekturze systemów zarządzania flotami (fleet management). Obsługuje dwukierunkowe streaming, flow control i multipleksowanie połączeń. Używany m.in. w ekosystemie NVIDIA Isaac jako interfejs między serwisami AI a kontrolerem robota oraz w niektórych implementacjach ROS 2 bridge do zewnętrznych serwisów chmurowych.
Protokół komunikacyjny full-duplex oparty na TCP, standaryzowany przez IETF (RFC 6455). Stosowany w robotyce do integracji przeglądarek i aplikacji webowych z systemami robotycznymi: rosbridge_suite implementuje protokół rosbridge v2.0 przez WebSocket.
Architektura komunikacji usługowej oparta na protokole HTTP z semantyką zasobów (GET, POST, PUT, DELETE, PATCH). Stosowana w cloud robotics i fleet management. Nie nadaje się do sterowania real-time.
Lekki protokół komunikacyjny publish-subscribe oparty na TCP/IP, zaprojektowany dla urządzeń IoT i systemów o ograniczonych zasobach. Stosowany w robotyce fleetowej i cloud robotics do telemetrii, monitoringu stanu floty i zdalnego zarządzania robotami AMR. Broker centralny (np. Mosquitto, AWS IoT Core) zarządza routingiem wiadomości między wydawcami a subskrybentami. MQTT 5.0 wprowadza session expiry, payload format indicator i flow control.
Standard IEEE 802.3ab – Ethernet 1 Gbit/s przez skrętkę Cat5e/Cat6, złącze RJ-45. Dominujący interfejs sieciowy w robotyce: komunikacja SDK-robot (Unitree SDK2, Boston Dynamics API, UR e-Series), przesyłanie obrazów z kamer IP, integracja z ROS 2 przez DDS/RTPS.
Inter-Integrated Circuit – dwuprzewodowy synchroniczny protokół (SDA + SCL) w trybach Standard (100 kbit/s) i Fast (400 kbit/s). Magistrala wielomaster, wieloslave z adresowaniem 7-bit (128 adresów) lub 10-bit. Stosowany do czujników IMU, magnetometrów, barometrów i ekspanderów I/O.
Mobile Industry Processor Interface Camera Serial Interface 2 – dedykowany interfejs kamer stosowany w modułach embedded (NVIDIA Jetson: 6 portów CSI-2). Obsługuje prędkości do 4.5 Gbit/s na tor. Dominujący interfejs kamer w robotach korzystających z modułów Jetson.
Klasa miękkiego czasu rzeczywistego 100–500 ms – odpowiedź w granicach setek milisekund wymagana dla płynnej pracy, ale przekroczenia nie powodują awarii. Zastosowania: task planning (Nav2 planner: 100–300 ms), rozpoznawanie gestów i mowy dla HRI, przetwarzanie obrazów (YOLO na GPU: 20–100 ms), feedback wizualny. Większość oprogramowania komercyjnego dla AMR i robotów usługowych operuje w tej klasie.
Klasa quasi-czasu rzeczywistego 500 ms – 2 s – latencja akceptowalna dla systemów wymagających responsywności, ale niewymagających precyzyjnego timingu. Zastosowania: teleoperacja przez LAN, wizja komputerowa z ciężkimi modelami (segmentation, pose estimation), feedback haptyczny przez sieć, cloud robotics z edge node. Granica akceptowalnej latencji dla interakcji człowiek-robot – powyżej ~300 ms operator odczuwa dyskomfort.
Hybrid oznacza typ wdrożenia łączący lokalne lub pokładowe uruchamianie komponentów z dodatkowymi usługami działającymi na edge lub w chmurze.
Cloud oznacza typ wdrożenia, w którym oprogramowanie działa w infrastrukturze chmurowej, np. jako usługa backendowa, narzędzie orkiestracyjne, system analityczny lub zdalna warstwa zarządzająca.
On Robot oznacza typ wdrożenia, w którym oprogramowanie działa bezpośrednio na robocie lub na jego pokładowym module obliczeniowym, np. komputerze przemysłowym, SBC lub platformie edge AI.
Rodzina licencji: Własnościowa – komercyjna
Domyślny status prawny oprogramowania bez jawnie określonej licencji – wszystkie prawa zastrzeżone przez właściciela praw autorskich. Użycie, modyfikacja i dystrybucja są zabronione bez pisemnej zgody właściciela. Nie jest licencją w ścisłym sensie, lecz brakiem licencji – kod bez pliku LICENSE jest domyślnie All Rights Reserved.
Ważna informacja dla edytorów: oprogramowanie bez jawnego pliku licencji jest automatycznie All Rights Reserved i nie może być legalnie używane, modyfikowane ani dystrybuowane. Producenci robotów powinni zawsze jawnie określać licencję. Redaktorzy Robocikowo powinni flagować wpisy bez określonej licencji i kontaktować się z producentem w celu wyjaśnienia.
Integracja MiLM (Xiaomi LLM 6B/13B) dla zaawansowanego NLU.
Adaptacja dla humanoida CyberOne, lokalizacja źródła dźwięku.
Dodano fuzję głosu z wizją w Mi Mix Alpha.
Pierwsze wydanie dla asystenta XiaoAI.