Agent w stanie s wybiera akcję a zgodnie z polityką π(a|s), środowisko zwraca nagrodę r oraz nowy stan s'. Cykl ten generuje trajektorię (s₀, a₀, r₀, s₁, a₁, r₁, …). Agent szacuje wartość stanu V^π(s) lub akcji Q^π(s,a), spełniającą równanie Bellmana: Q^π(s,a) = E[r + γ · Q^π(s', a')]. Algorytmy RL dzielą się na: (1) value-based (Q-learning, DQN) — uczenie Q i wybieranie akcji argmax, (2) policy-gradient (REINFORCE, PPO, TRPO) — bezpośrednia optymalizacja π przez gradient oczekiwanej nagrody, (3) actor-critic (A3C, SAC, DDPG) — łączące oba podejścia, (4) model-based (Dyna, MuZero, Dreamer) — uczące jawnego modelu dynamiki środowiska. Centralny problem to dylemat eksploracja–eksploatacja oraz credit assignment (przypisanie nagrody konkretnym akcjom z opóźnieniem).
Jak nauczyć agenta podejmowania sekwencyjnych decyzji w środowisku, w którym brak jest etykietowanych przykładów "poprawnej akcji", a sygnał uczący jest opóźniony, rzadki i tylko częściowo informacyjny (skalarna nagroda).
Decision maker — uczy się polityki π(a|s) i wybiera akcje na podstawie obserwacji stanu.
Świat, z którym agent wchodzi w interakcję. Definiuje dynamikę przejść P(s'|s,a) oraz funkcję nagrody R(s,a).
Funkcja π(a|s) mapująca stan na rozkład prawdopodobieństwa akcji. Może być deterministyczna lub stochastyczna; tabularyczna lub parametryzowana siecią neuronową.
Oficjalna
V^π(s) lub Q^π(s,a) — oczekiwana skumulowana zdyskontowana nagroda z danego stanu (lub pary stan-akcja) przy stosowaniu polityki π.
Oficjalna
R(s,a) — skalarny sygnał uczący zwracany przez środowisko. Definicja celu agenta — wszystko, co RL optymalizuje, jest sumą nagród.
Agent znajduje sposób na maksymalizację nagrody niezgodny z intencją projektanta — np. wykorzystując lukę w funkcji nagrody zamiast rozwiązywać zadanie.
Deep RL jest notorycznie niestabilne — małe zmiany hyperparametrów lub seedów dają drastycznie różne wyniki. Dryf w funkcji wartości może prowadzić do dywergencji.
RL wymaga ogromnej liczby interakcji ze środowiskiem (miliony–miliardy kroków), co czyni go niepraktycznym dla rzeczywistych systemów fizycznych bez symulacji.
Agent uczący się nowych zadań może zapomnieć wcześniej opanowane umiejętności, szczególnie w setupie continual / multi-task RL.
Gdy nagroda jest rzadka (np. tylko na końcu epizodu), naiwna eksploracja losowa nie odkrywa rozwiązań. Problem fundamentalny dla zadań długoterminowych.
Richard Bellman formułuje matematyczne podstawy programowania dynamicznego i dyskontowanej nagrody — fundament teoretyczny RL.
Chris Watkins wprowadza Q-learning — model-free, off-policy, tabularyczny algorytm uczenia funkcji wartości akcji.
Pierwsze kanoniczne podsumowanie pola — definiuje terminologię i taksonomię używaną do dziś.
Mnih et al. łączą Q-learning z konwolucyjną siecią neuronową i osiągają nadludzki poziom w grach Atari z surowych pikseli — początek ery Deep RL.
DeepMind łączy MCTS, RL i deep learning — pokonuje mistrza świata w Go, problemie wcześniej uznawanym za odległy o dekady.
OpenAI publikuje PPO — prosty, stabilny algorytm policy-gradient, który staje się de-facto standardem branżowym (później używany w RLHF dla GPT).
DeepMind prezentuje MuZero — model-based RL uczące się dynamiki środowiska bez znajomości jego reguł. Państwowe SOTA w Go, szachach, shogi i Atari.
OpenAI używa RLHF (z PPO) do alignmentu GPT-3.5/4 z preferencjami ludzkimi — RL wkracza do mainstreamu produktów AI dla milionów użytkowników.
OpenAI o1 i DeepSeek-R1 używają RL na verifiable rewards (matematyka, kod) do nauki długiego, krokowego rozumowania (chain-of-thought) — RL staje się core mechanizmem reasoning models.
Waga przyszłych nagród względem bieżących. γ ∈ [0,1]. Wartości bliskie 1 promują długoterminowe planowanie; bliskie 0 — krótkoterminowe.
Krok aktualizacji parametrów polityki lub funkcji wartości. Zbyt wysoki → niestabilność; zbyt niski → wolna zbieżność.
Kontrola dylematu eksploracja–eksploatacja. ε-greedy używa losowej akcji z prawdopodobieństwem ε; metody policy-gradient stosują regularizację entropii.
Liczba przechowywanych przejść (s, a, r, s') używanych do treningu off-policy. Większy bufor → stabilniejszy trening, większe zużycie pamięci.
Liczba przejść próbkowanych z replay bufora w jednej aktualizacji.
RL nie jest pojedynczą architekturą obliczeniową, lecz paradygmatem treningu — sposób wykonania zależy od konkretnego algorytmu (DQN, PPO, SAC, MuZero) i architektury sieci aproksymującej politykę/wartość.
Większość algorytmów RL wymaga sekwencyjnej interakcji ze środowiskiem (rollouty), co ogranicza paralelizm. Frameworki takie jak A3C, IMPALA, Ape-X paralelizują zbieranie danych przez wielu actorów na wielu maszynach, ale aktualizacja gradientów pozostaje synchronizowana.
Deep RL wykorzystuje sieci neuronowe trenowane przez backpropagation — GPU są optymalne dla mnożenia macierzy podczas updatów polityki/Q-funkcji.
Symulacja środowisk (Mujoco, Atari, gry) jest często CPU-bound; rozproszone setupy (IMPALA, Ape-X) używają wielu CPU actorów + GPU learner.
TPU używane przez DeepMind do dużych eksperymentów (AlphaGo, AlphaZero, MuZero); dobre dla syntenicznych workloadów RL z dużymi batch sizes.