W każdym kroku: (1) Aktor π_θ(a|s) wybiera akcję na podstawie aktualnego stanu. (2) Środowisko zwraca nagrodę r i następny stan s'. (3) Krytyk V_w(s) (lub Q_w) oblicza błąd czasowo-różnicowy (TD error) δ = r + γV_w(s') − V_w(s), będący estymatą przewagi. (4) Krytyk jest aktualizowany do minimalizacji błędu TD (regresja). (5) Aktor jest aktualizowany gradientem polityki ważonym przez δ: ∇_θ log π_θ(a|s)·δ, co zwiększa prawdopodobieństwo akcji lepszych niż oczekiwano. Warianty różnią się sposobem estymacji przewagi (GAE), liczbą kroków bootstrap (n-step), wykorzystaniem entropii (SAC) lub clippingiem (PPO).
Czyste metody gradientu polityki (REINFORCE) mają wysoką wariancję estymatora, co spowalnia i destabilizuje uczenie. Czyste metody wartościowe (Q-learning) trudno stosować w ciągłych przestrzeniach akcji. Actor-Critic łączy zalety obu: niska wariancja dzięki krytykowi i bezpośrednia parametryzacja polityki dla ciągłych akcji.
Sieć neuronowa wyznaczająca rozkład akcji (kategoryczny dla dyskretnych, Gauss/squashed dla ciągłych). Aktualizowana gradientem polityki ważonym sygnałem krytyka.
Sieć ucząca się oceny stanu lub pary stan-akcja, używana do obliczenia błędu TD i redukcji wariancji aktualizacji aktora.
Mechanizm wyznaczania przewagi: jednokrokowy TD error, n-step lub Generalized Advantage Estimation (GAE) z parametrem λ.
Bootstrapping z funkcją aproksymowaną może rozbiegać się (deadly triad: function approximation + bootstrapping + off-policy).
Pojedynczy krytyk Q ma tendencję do zawyżania wartości akcji, co psuje politykę.
Aktor może przedwcześnie zbiec do deterministycznej, suboptymalnej polityki.
Aktualizacje krytyka i przewagi są wrażliwe na skalę i wariancję nagród.
Sformułowanie układu „adaptive critic element" + „associative search element" rozwiązującego problem balansu drążka.
Sutton i in. formalizują twierdzenie o gradiencie polityki, dając teoretyczne podstawy nowoczesnych metod actor-critic.
Mnih i in. wprowadzają A3C, pokazując skalowalny, stabilny deep RL bez replay buffera.
Lillicrap i in. łączą deterministycznego aktora z krytykiem Q dla ciągłych przestrzeni akcji.
Schulman i in. wprowadzają PPO, najpopularniejszy dziś wariant actor-critic, później szkielet RLHF.
Haarnoja i in. dodają regularyzację entropii i twin critics, ustanawiając SoTA w ciągłej kontroli.
V(s) vs Q(s,a) vs twin critics — determinuje rodzinę algorytmu (A2C vs DDPG/SAC).
Parametr kompromisu bias-variance w Generalized Advantage Estimation (typowo 0.9-0.97).
Waga bonusu entropii zachęcającego do eksploracji (kluczowy w SAC, A3C, PPO).
Względne tempo uczenia aktora i krytyka; krytyk zwykle uczony szybciej dla stabilności.
Liczba równoległych środowisk/aktorów zbierających dane (A2C/A3C/IMPALA).
Zarówno sieć aktora, jak i krytyka są aktywne w każdym kroku treningu.
Warianty asynchroniczne (A3C) i rozproszone (IMPALA, A2C) paralelizują zbieranie danych przez wielu aktorów. Aktualizacja sieci pozostaje synchroniczna; krok środowiska jest sekwencyjny.
Trening sieci aktora i krytyka oraz batchowane aktualizacje korzystają z GPU; rozmiary sieci umiarkowane.
Zbieranie danych przez wielu równoległych aktorów (A3C/IMPALA) jest często CPU-bound w symulacjach.