Sutton i Rafiee: enaktywna AI – ciało i doświadczenie zamiast reprezentacji

Banafsheh Rafiee z Uniwersytetu Alberty i Richard S. Sutton – laureat nagrody Turinga i ojciec uczenia ze wzmocnieniem – opublikowali 22 maja 2026 roku na arXiv prace pt. „Tward Enactive Artificial Intelligence”. Argumentują, że główny nurt AI – od systemów symbolicznych, przez nadzorowane uczenie maszynowe, po duże modele językowe – utknął w paradygmacie reprezentacjonizmu: inteligencja jako pasywne przetwarzanie wewnętrznych map świata. Jako alternatywę proponują enaktywną teorię poznania (enactive cognition), gdzie inteligencja wyłania się z aktywnego, ucieleśnionego zaangażowania agenta w środowisko.

Najważniejsze w skrócie

Praca arXiv:2605.24238v1 opublikowana 22 maja 2026 przez Rafiee i Suttona z Uniwersytetu Alberty.
Cztery filary enaktywnej AI: doświadczenie, nierozerwalność percepcji i działania, autonomia, ucieleśnienie.
Uczenie ze wzmocnieniem (RL) jest ze wszystkich podejść strukturalnie najbliższe enaktywnemu modelowi, ale nie jest z nim tożsame – nagroda wciąż pochodzi z zewnątrz agenta.
Duże modele językowe (LLM) i modele nadzorowane pozostają „odcieleśnione” – uczą się z ludzkich danych, nie z własnego działania w świecie.
Autorzy nie dostarczają nowych algorytmów – artykuł jest teoretyczną mapą drogową wskazującą braki i kierunki badań.

Reprezentacjonizm i jego granice

Dominujące podejście do percepcji w AI opiera się na reprezentacjonizmie: system pobiera dane zmysłowe, koduje je jako wewnętrzne reprezentacje świata, a następnie na ich podstawie generuje działania. To model sprawdzający się w ograniczonych środowiskach, ale według Rafiee i Suttona zasadniczo ułomny w przypadku otwartego, dynamicznego świata.

Problem polega na tym, że żadna skończona wewnętrzna mapa nie jest w stanie wiernie uchwycić rzeczywistości. Jak trafnie ujął to robotyk Rodney Brooks: „świat sam w sobie jest najlepszym modelem” – najbardziej aktualna i precyzyjna informacja zawsze istnieje na zewnątrz agenta, nie w jego wewnętrznych surogatach. Ten argument, obecny od lat w robotyce behawioralnej, zyskuje teraz nowy kontekst przy skalowaniu modeli językowych.

Enaktywizm, subdyscyplina kognitywistyki sformułowana przez Varela, Thompson i Rosch w 1991 roku, proponuje odwrócenie perspektywy: poznanie nie poprzedza ani nie reprezentuje świata – ono wyłania się z aktywnego zaangażowania agenta ze środowiskiem. Percepcja jest czynnością, a nie odbiorem sygnałów.

Cztery filary enaktywnej AI

Doświadczenie: agent jako uczestnik

W ujęciu enaktywnym doświadczenie nie jest równoznaczne z danymi. Dane to ślady interakcji – zapis czegoś, co ktoś inny przeżył. Prawdziwe doświadczenie to ciągła, wzajemna wymiana z otoczeniem, w której agent sam kształtuje to, co percypuje, przez własne działania. Nadzorowane uczenie maszynowe dostarcza modelom wyłącznie cudze doświadczenia. RL idzie dalej – agent zbiera własne dane przez interakcję ze środowiskiem. Jednak nawet RL nie osiąga pełni enaktywnego doświadczenia: brakuje mu umiejętnościowego, normatywnego i prawdziwie ucieleśnionego wymiaru.

Nierozerwalność percepcji i działania

Enaktywizm odrzuca sekwencję percepcja → przetwarzanie → działanie jako fałszywe uproszczenie. Percepcja sama w sobie jest formą działania. Człowiek nie odbiera pasywnie widoku – porusza gałkami ocznymi, głową, ciałem, aktywnie modulując to, co trafia do systemu wzrokowego. Zdolność ta jest opisywana jako opanowanie contingencji sensomotorycznych: agent wie, jak jego ruchy zmieniają napływające dane zmysłowe.

Konsekwencje dla AI są poważne. Modele generowania wideo mogą przewidywać kolejne klatki z wysoką dokładnością, ale – jak pokazuje analiza w artykule – potrafią jedynie kontynuować regularne wzorce statystyczne. Gdy sytuacja wymaga interwencji (awaria, nieznany obiekt), system nie ma nic, do czego może się odwołać. Agent enaktywny nie tylko antycypuje następny stan – może aktywnie go zmienić.

Autonomia i normatywność

Autonomia w sensie enaktywnym wynika z autopoiezy: agent jest układem samopodtrzymującym się, który aktywnie utrzymuje własną organizację. To rodzi normatywność – oceny sukcesu i porażki zakorzenioną w samym agencie, a nie narzuconą z zewnątrz. W nadzorowanym uczeniu maszynowym sukces definiuje etykieta przygotowana przez człowieka. W RL kryterium sukcesu wyznacza funkcja nagrody – nadal zewnętrzna względem agenta. Autorzy wskazują, że RL zbliża się do normatywności dzięki temporalnie rozciągniętej ocenie zachowania, lecz pełna autonomia enaktywna – gdzie kryteria wynikają z własnej organizacji agenta – pozostaje nieosiagnięta.

Ucieleśnienie

Ciało nie jest platformą wykonawczą – to warunek konieczny, aby percepcja miała sens. Kształt stawów, rozmieszczenie sensorów, zakres ruchu – wszystko to kształtuje contingencje sensomotoryczne dostępne dla agenta. Koncepcja afordancji Gibsona uchwytuje ten punkt: krzeseło jest „do siedzenia” nie jako obiektywna właściwość mebla, lecz jako relacja z możliwościami konkretnego ciała. Niestety wiele systemów Embodied AI w robotyce wciąż traktuje ciało jako zewnętrzne ograniczenie inżynierskie, a nie fundament kształtujący sam sposób, w jaki agent doświadcza i kategoryzuje świat.

RL jako naturalny sprzymierzeniec – i jego trzy braki

Sutton i Rafiee doceniają uczenie ze wzmocnieniem jako podejście strukturalnie najbliższe enaktywnemu modelowi: agent aktywnie eksploruje środowisko, zbiera własne dane, a ocena polega na temporalnie rozciągniętej analizie konsekwencji działań, nie tylko chwilowego stanu. To wyraźna różnica w stosunku do nadzorowanego uczenia maszynowego, gdzie model nigdy nie modyfikuje danych, na których się uczy.

Jednak rezonans strukturalny to nie równoważność teoretyczna. Autorzy identyfikują trzy niedomknięte miejsca:

Po pierwsze, funkcja nagrody pochodzi z zewnątrz. Agent RL nie posiada własnych, samoreferujących się kryteriów sukcesu – jego normatywność jest narzucona przez projektanta. Metody motywacji wewnętrznej (intrinsic motivation) i odkrywania celów (goal discovery) zbliżają się do rozwiązania, ale pełna autonomia enaktywna pozostaje postulatem.
Po drugie, percepcja i działanie wciąż bywają traktowane jako odrębne etapy. Nawet w głębokim RL standardowy pipeline zakłada odczyt obserwacji, przepuszczenie przez sieć, wybranie akcji – sekwencja, która zachowuje ślad reprezentacjonizmu. Podejścia takie jak aktywna inferencja (active inference) czy frameworki predyktywnego kodowania (predictive coding) lepiej modelują pętlę sprzężenia.
Po trzecie, ucieleśnienie w robotyce RL jest najczęściej zewnętrznym warunkiem brzegowym – symulatorem, którego wiedzę trzeba przenieść do realu (sim-to-real gap) – nie zasadą konstytutywną dla samej struktury uczenia się.

Dlaczego to ważne?

Artykuł Rafiee i Suttona jest rzadkim przykładem pracy, która zadaje pytanie strukturalne – nie „jak poprawić benchmark?”, lecz „czy w ogóle budujemy właściwy rodzaj systemu?”. Argument jest prowokacyjny: skale modeli językowych rosną wykładniczo, a mimo to modele te nie interagują aktywnie ze środowiskiem, nie oceniają własnych działań i nie posiadają ciała. Są coraz sprawniejsi w prognozowaniu tokenów, ale tej sprawności nie towarzyszy żaden mechanizm weryfikacji przez rzeczywiste konsekwencje działania.

Dla społeczności RL artykuł jest wezwaniem do rozszerzenia podstaw teoretycznych. Reward shaping i RLHF są technikami operacyjnymi, ale nie odpowiadają na pytanie, skąd w ogóle ma pochodzić normatywność agenta. Kognitywistyczna tradycja enaktywizmu dostarcza tu gotowego słownika pojęciowego – i propozycję, jak go uoperacjonalizować w systemach AI.

Praktyczne implikacje są widoczne w robotyce mobilnej, autonomii pojazdów i długookresowym uczeniu w otwartych środowiskach – wszędzie tam, gdzie statyczne datasety i zewnętrzna nagroda stają się wąskim gardłem zdolności adaptacyjnych. Praca jest teoretycznym manifestem, ale wskazuje konkretne kierunki: benchmarki mierzące zaangażowanie umiejętnościowe zamiast klasyfikacji wzorców, architektura RL z wewnętrznie generowaną nagrodą, modele fizyczne uwzględniające morfologię ciała agenta.

Co dalej?

Autorzy zapowiadają dalsze operacjonalizowanie pojęć: jak zmierzyć stopień nierozerwalności percepcji i działania w konkretnym systemie, jak zdefiniować samopodtrzymywanie dla agenta programowego. To zadania dla wielu grup badawczych, nie jednej pracy.
Konferencje NeurIPS 2026 i ICML 2026 będą pierwszymi dużymi imprezami, gdzie można spodziewać się odpowiedzi środowiska RL i robotyki na tę propozycję teoretyczną.
Rosnące zainteresowanie długookresowym uczeniem ciągłym (continual learning) i hipotezą Big World Hypothesis może przyspieszyć absorbcję pojęć enaktywnych – oba nurty są wymieniane w artykule jako najbardziej kompatybilne z enaktywnym modelem.