Wnioskowanie

Actor-Critic

1983AktywnyOpublikowano: 8 czerwca 2026Aktualizacja: 8 czerwca 2026Opublikowany

Architektura uczenia ze wzmocnieniem łącząca aktora (polityka) i krytyka (funkcja wartości), gdzie krytyk dostarcza sygnał obniżający wariancję aktualizacji polityki.

Kluczowa innowacja

Połączenie uczenia polityki (actor) z estymacją wartości (critic) w jednej architekturze, co redukuje wariancję gradientu polityki względem czystego REINFORCE bez wprowadzania obciążenia metod czysto wartościowych.

Kategoria

Wnioskowanie

Poziom abstrakcji

Wzorzec

Poziom operacji

TreningŚrodowisko agentowe

Zastosowania

Sterowanie ciągłe w robotyce (lokomocja, manipulacja)RLHF dla dużych modeli językowych (PPO)Granie w gry wideo (A3C, IMPALA)Sterowanie autonomicznymi pojazdamiOptymalizacja zasobów i sterowanie przemysłoweUczenie polityki w wyobraźni w MBRL (Dreamer)

Jak działa

W każdym kroku: (1) Aktor π_θ(a|s) wybiera akcję na podstawie aktualnego stanu. (2) Środowisko zwraca nagrodę r i następny stan s'. (3) Krytyk V_w(s) (lub Q_w) oblicza błąd czasowo-różnicowy (TD error) δ = r + γV_w(s') − V_w(s), będący estymatą przewagi. (4) Krytyk jest aktualizowany do minimalizacji błędu TD (regresja). (5) Aktor jest aktualizowany gradientem polityki ważonym przez δ: ∇_θ log π_θ(a|s)·δ, co zwiększa prawdopodobieństwo akcji lepszych niż oczekiwano. Warianty różnią się sposobem estymacji przewagi (GAE), liczbą kroków bootstrap (n-step), wykorzystaniem entropii (SAC) lub clippingiem (PPO).

Rozwiązany problem

Czyste metody gradientu polityki (REINFORCE) mają wysoką wariancję estymatora, co spowalnia i destabilizuje uczenie. Czyste metody wartościowe (Q-learning) trudno stosować w ciągłych przestrzeniach akcji. Actor-Critic łączy zalety obu: niska wariancja dzięki krytykowi i bezpośrednia parametryzacja polityki dla ciągłych akcji.

Komponenty

Actor (policy network)Parametryzuje i próbkuje politykę π(a|s)

Sieć neuronowa wyznaczająca rozkład akcji (kategoryczny dla dyskretnych, Gauss/squashed dla ciągłych). Aktualizowana gradientem polityki ważonym sygnałem krytyka.

Critic (value network)Estymuje funkcję wartości V(s) / Q(s,a) / A(s,a)

Sieć ucząca się oceny stanu lub pary stan-akcja, używana do obliczenia błędu TD i redukcji wariancji aktualizacji aktora.

State-value critic V(s)Używany w A2C/A3C/PPO z estymacją przewagi (GAE).

Action-value critic Q(s,a)Używany w DDPG/TD3/SAC dla ciągłej kontroli.

Twin critics (TD3, SAC)Dwa krytycy Q i minimum do redukcji nadestymacji wartości.

Advantage estimatorOblicza przewagę A(s,a) sterującą aktorem

Mechanizm wyznaczania przewagi: jednokrokowy TD error, n-step lub Generalized Advantage Estimation (GAE) z parametrem λ.

Implementacja

Implementacje referencyjne

Stable-Baselines3 (A2C/PPO/SAC/TD3)

Python · DLR-RM

CleanRL

Python · Costa Huang et al.

Python · PyTorch / Meta

Oficjalna

Pułapki implementacyjne

Niestabilność uczenia krytykaWysoka

Bootstrapping z funkcją aproksymowaną może rozbiegać się (deadly triad: function approximation + bootstrapping + off-policy).

Rozwiązanie:Target networks, twin critics, ograniczenie kroku polityki (PPO clip, TRPO), normalizacja przewag.

Nadestymacja wartościWysoka

Pojedynczy krytyk Q ma tendencję do zawyżania wartości akcji, co psuje politykę.

Rozwiązanie:Clipped double-Q (TD3/SAC) — minimum z dwóch krytyków.

Kolaps eksploracjiŚrednia

Aktor może przedwcześnie zbiec do deterministycznej, suboptymalnej polityki.

Rozwiązanie:Bonus entropii (SAC), szum eksploracyjny (DDPG/TD3), strojenie współczynnika entropii.

Wrażliwość na skalę nagródŚrednia

Aktualizacje krytyka i przewagi są wrażliwe na skalę i wariancję nagród.

Rozwiązanie:Normalizacja zwrotów/przewag, reward clipping, symlog (DreamerV3).

Ewolucja

Oryginalny paper · 1983 · IEEE Transactions on Systems, Man, and Cybernetics 1983 · Andrew G. Barto

Neuronlike Adaptive Elements That Can Solve Difficult Learning Control Problems

Andrew G. Barto, Richard S. Sutton, Charles W. Anderson

1983

Barto-Sutton-Anderson — pierwszy actor-critic

Punkt przełomowy

Sformułowanie układu „adaptive critic element" + „associative search element" rozwiązującego problem balansu drążka.

2000

Policy Gradient Theorem i actor-critic z aproksymacją funkcji

Punkt przełomowy

Sutton i in. formalizują twierdzenie o gradiencie polityki, dając teoretyczne podstawy nowoczesnych metod actor-critic.

Policy Gradient Methods for Reinforcement Learning with Function Approximation (artykuł)

2016

A3C — asynchroniczny deep actor-critic

Punkt przełomowy

Mnih i in. wprowadzają A3C, pokazując skalowalny, stabilny deep RL bez replay buffera.

Asynchronous Methods for Deep Reinforcement Learning (artykuł)

2015

DDPG — ciągła kontrola off-policy

Lillicrap i in. łączą deterministycznego aktora z krytykiem Q dla ciągłych przestrzeni akcji.

Continuous Control with Deep Reinforcement Learning (artykuł)

2017

PPO — clipped actor-critic

Punkt przełomowy

Schulman i in. wprowadzają PPO, najpopularniejszy dziś wariant actor-critic, później szkielet RLHF.

PPO (koncept)Proximal Policy Optimization Algorithms (artykuł)

2018

SAC — maximum-entropy actor-critic

Haarnoja i in. dodają regularyzację entropii i twin critics, ustanawiając SoTA w ciągłej kontroli.

Soft Actor-Critic: Off-Policy Maximum Entropy Deep RL (artykuł)

Źródła

Neuronlike Adaptive Elements That Can Solve Difficult Learning Control Problems (Barto-Sutton-Anderson)

Paper

IEEE TSMC 1983

Policy Gradient Methods for Reinforcement Learning with Function Approximation

Paper

NeurIPS 1999

Asynchronous Methods for Deep Reinforcement Learning (A3C)

Paper

arXiv / ICML 2016

Continuous Control with Deep Reinforcement Learning (DDPG)

Paper

arXiv / ICLR 2016

Proximal Policy Optimization Algorithms (PPO)

Paper

arXiv

Soft Actor-Critic (SAC)

Paper

arXiv / ICML 2018

Sutton & Barto, Reinforcement Learning: An Introduction (Ch. 13)

Dokumentacja

MIT Press

Actor-Critic

Jak działa

Rozwiązany problem

Komponenty

Implementacja

Ewolucja

Źródła

Hiperparametry (konfigurowalne osie)

Paradygmat wykonania

Równoległość

Wymagania sprzętowe