Agent (robot lub awatar w symulacji) percypuje środowisko przez sensory, podejmuje akcje, które zmieniają stan środowiska, i otrzymuje nagrody lub sygnały uczenia. Pętla percepcja-działanie-uczenie umożliwia zdobywanie wiedzy ugruntowanej fizycznie.
Tradycyjne systemy AI operują tylko na danych cyfrowych, bez interakcji z fizycznym środowiskiem. Embodied AI bada jak agenci mogą uczyć się przez fizyczną interakcję ze światem.
Oficjalna
Oficjalna
Oficjalna
Oficjalna
Oficjalna
Polityki wytrenowane w symulacji często nie przenoszą się na fizyczny sprzęt, ponieważ symulatory nie odwzorowują idealnie fizyki rzeczywistości, szumu sensorycznego, zmienności oświetlenia i tolerancji mechanicznych. Nawet symulatory wysokiej wierności pozostawiają resztkowe luki powodujące degradację wydajności przy wdrożeniu.
Uczenie przez wzmacnianie w środowiskach ucieleśnionych typowo wymaga milionów interakcji ze środowiskiem do konwergencji, co jest prohibitywnie wolne i kosztowne na fizycznym sprzęcie. Zbieranie danych w rzeczywistym świecie jest rzędami wielkości wolniejsze i droższe niż symulacja.
Systemy Embodied AI wytrenowane na czystych lub idealizowanych danych sensorycznych często zawodzą wdrożone w warunkach zaszumionych, zasłoniętych lub poza rozkładem (zmienne oświetlenie, częściowa okluzja, dryf sensoryczny).
Zadania długoterminowe z wieloma sekwencyjnymi krokami są trudne dla agentów ucieleśnionych, ponieważ błędy kumulują się przez kolejne kroki, a sygnały nagród stają się rzadkie. Standardowe RL ma trudności z zadaniami wymagającymi setek akcji do wykonania.
Systemy Embodied AI wdrożone na fizycznych robotach muszą spełniać rygorystyczne ograniczenia czasowe (milisekundy dla sterowania silnikami). Duże sieci neuronowe zaprojektowane dla wysokiej dokładności mogą być zbyt wolne dla wdrożenia w czasie rzeczywistym na sprzęcie krawędziowym bez optymalizacji.
Zachowanie agenta jest warunkowane bieżącym stanem sensorycznym środowiska. Różne wejścia percepcyjne prowadzą do różnych wyjść akcji. Systemy hierarchiczne dodatkowo przełączają między planerem wysokiego poziomu a kontrolerami niskiego poziomu w zależności od stanu zadania.
Trenowanie przez uczenie przez wzmacnianie w symulacji można masowo zrównoleglić na wielu instancjach środowiska (np. tysiące równoległych przebiegów na GPU). Inferencja (sterowanie w pętli zamkniętej w czasie rzeczywistym) jest z natury sekwencyjna na poziomie pętli percepcja–akcja dla pojedynczego agenta, ale wiele agentów może być wdrożonych równolegle.
Trenowanie na dużą skalę oparte na symulacji dla Embodied AI wymaga zrównoleglonych na GPU symulatorów fizyki i trenowania głębokiego uczenia. Nowoczesne frameworki takie jak Isaac Lab i ManiSkill3 uruchamiają tysiące równoległych instancji środowiska na GPU NVIDIA.
Kontrolery silników niskiego poziomu i pętle sterowania krytyczne dla bezpieczeństwa z deterministycznym czasem typowo działają na CPU lub dedykowanych mikrokontrolerach, a nie na GPU.