Trening

RL

1998AktywnyOpublikowano: 30 maja 2026Aktualizacja: 30 maja 2026Opublikowany

Paradygmat uczenia maszynowego, w którym agent uczy się polityki działania poprzez interakcję ze środowiskiem i maksymalizację skumulowanej nagrody.

Kluczowa innowacja

Sformalizowanie uczenia przez interakcję ze środowiskiem: agent maksymalizuje skumulowaną nagrodę poprzez próby i błędy, bez nadzoru w postaci etykietowanych przykładów.

Kategoria

Trening

Poziom abstrakcji

Paradygmat

Poziom operacji

TreningPo-treningŚrodowisko agentowe

Zastosowania

Gry (Atari, Go, StarCraft, Dota 2)Robotyka — sterowanie manipulatorami i lokomocjaRLHF / alignment dużych modeli językowychSterowanie autonomicznymi pojazdamiOptymalizacja systemów rekomendacyjnychOptymalizacja zużycia energii w data centersTrading algorytmicznySterowanie procesami przemysłowymi

Jak działa

Agent w stanie s wybiera akcję a zgodnie z polityką π(a|s), środowisko zwraca nagrodę r oraz nowy stan s'. Cykl ten generuje trajektorię (s₀, a₀, r₀, s₁, a₁, r₁, …). Agent szacuje wartość stanu V^π(s) lub akcji Q^π(s,a), spełniającą równanie Bellmana: Q^π(s,a) = E[r + γ · Q^π(s', a')]. Algorytmy RL dzielą się na: (1) value-based (Q-learning, DQN) — uczenie Q i wybieranie akcji argmax, (2) policy-gradient (REINFORCE, PPO, TRPO) — bezpośrednia optymalizacja π przez gradient oczekiwanej nagrody, (3) actor-critic (A3C, SAC, DDPG) — łączące oba podejścia, (4) model-based (Dyna, MuZero, Dreamer) — uczące jawnego modelu dynamiki środowiska. Centralny problem to dylemat eksploracja–eksploatacja oraz credit assignment (przypisanie nagrody konkretnym akcjom z opóźnieniem).

Rozwiązany problem

Jak nauczyć agenta podejmowania sekwencyjnych decyzji w środowisku, w którym brak jest etykietowanych przykładów "poprawnej akcji", a sygnał uczący jest opóźniony, rzadki i tylko częściowo informacyjny (skalarna nagroda).

Komponenty

AgentWybór akcji i aktualizacja polityki

Decision maker — uczy się polityki π(a|s) i wybiera akcje na podstawie obserwacji stanu.

ŚrodowiskoGenerowanie obserwacji i nagród

Świat, z którym agent wchodzi w interakcję. Definiuje dynamikę przejść P(s'|s,a) oraz funkcję nagrody R(s,a).

PolitykaStrategia działania agenta

Funkcja π(a|s) mapująca stan na rozkład prawdopodobieństwa akcji. Może być deterministyczna lub stochastyczna; tabularyczna lub parametryzowana siecią neuronową.

Oficjalna

Funkcja wartościOcena długoterminowych skutków decyzji

V^π(s) lub Q^π(s,a) — oczekiwana skumulowana zdyskontowana nagroda z danego stanu (lub pary stan-akcja) przy stosowaniu polityki π.

Oficjalna

Funkcja nagrodyDefinicja celu

R(s,a) — skalarny sygnał uczący zwracany przez środowisko. Definicja celu agenta — wszystko, co RL optymalizuje, jest sumą nagród.

Implementacja

Implementacje referencyjne

Stable-Baselines3

Python (PyTorch) · DLR / community

CleanRL

Python (PyTorch) · Costa Huang et al.

OpenAI Spinning Up

Python (PyTorch / TensorFlow) · OpenAI

Oficjalna

RLlib (Ray)

Python · Anyscale / Ray

Oficjalna

Gymnasium

Python · Farama Foundation

Oficjalna

Pułapki implementacyjne

Reward hacking / specification gamingWysoka

Agent znajduje sposób na maksymalizację nagrody niezgodny z intencją projektanta — np. wykorzystując lukę w funkcji nagrody zamiast rozwiązywać zadanie.

Rozwiązanie:Staranne projektowanie funkcji nagrody, reward shaping, RLHF, constrained RL, regularne walidowanie zachowania w różnych warunkach.

Niestabilność treninguKrytyczna

Deep RL jest notorycznie niestabilne — małe zmiany hyperparametrów lub seedów dają drastycznie różne wyniki. Dryf w funkcji wartości może prowadzić do dywergencji.

Rozwiązanie:Target networks (DQN), trust regions (TRPO/PPO), normalizacja obserwacji i nagród, gradient clipping, wiele runów z różnymi seedami.

Sample inefficiencyWysoka

RL wymaga ogromnej liczby interakcji ze środowiskiem (miliony–miliardy kroków), co czyni go niepraktycznym dla rzeczywistych systemów fizycznych bez symulacji.

Rozwiązanie:Model-based RL (MuZero, Dreamer), offline RL, pre-training na demonstracjach (imitation learning + RL fine-tuning), sim-to-real transfer.

Catastrophic forgettingŚrednia

Agent uczący się nowych zadań może zapomnieć wcześniej opanowane umiejętności, szczególnie w setupie continual / multi-task RL.

Rozwiązanie:EWC, replay buforowanie zadań, modular policies, multi-task curricula.

Eksploracja w sparse-reward environmentsWysoka

Gdy nagroda jest rzadka (np. tylko na końcu epizodu), naiwna eksploracja losowa nie odkrywa rozwiązań. Problem fundamentalny dla zadań długoterminowych.

Rozwiązanie:Intrinsic motivation (curiosity, RND), hierarchical RL, reward shaping, demonstracje eksperckie, goal-conditioned RL.

Ewolucja

Oryginalny paper · 1998 · MIT Press (1st ed. 1998, 2nd ed. 2018) · Richard S. Sutton

Reinforcement Learning: An Introduction

Richard S. Sutton, Andrew G. Barto

1957

Równania Bellmana

Punkt przełomowy

Richard Bellman formułuje matematyczne podstawy programowania dynamicznego i dyskontowanej nagrody — fundament teoretyczny RL.

1989

Q-learning (Watkins)

Punkt przełomowy

Chris Watkins wprowadza Q-learning — model-free, off-policy, tabularyczny algorytm uczenia funkcji wartości akcji.

1998

Sutton & Barto: Reinforcement Learning: An Introduction

Punkt przełomowy

Pierwsze kanoniczne podsumowanie pola — definiuje terminologię i taksonomię używaną do dziś.

2013

DQN — Deep Q-Network (DeepMind)

Punkt przełomowy

Mnih et al. łączą Q-learning z konwolucyjną siecią neuronową i osiągają nadludzki poziom w grach Atari z surowych pikseli — początek ery Deep RL.

Playing Atari with Deep Reinforcement Learning (artykuł)

2016

AlphaGo pokonuje Lee Sedola

Punkt przełomowy

DeepMind łączy MCTS, RL i deep learning — pokonuje mistrza świata w Go, problemie wcześniej uznawanym za odległy o dekady.

2017

PPO — Proximal Policy Optimization

Punkt przełomowy

OpenAI publikuje PPO — prosty, stabilny algorytm policy-gradient, który staje się de-facto standardem branżowym (później używany w RLHF dla GPT).

Proximal Policy Optimization Algorithms (artykuł)

2019

MuZero

DeepMind prezentuje MuZero — model-based RL uczące się dynamiki środowiska bez znajomości jego reguł. Państwowe SOTA w Go, szachach, shogi i Atari.

Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model (artykuł)

2022

RLHF w ChatGPT

Punkt przełomowy

OpenAI używa RLHF (z PPO) do alignmentu GPT-3.5/4 z preferencjami ludzkimi — RL wkracza do mainstreamu produktów AI dla milionów użytkowników.

2024

RL dla reasoning (o1, DeepSeek-R1)

Punkt przełomowy

OpenAI o1 i DeepSeek-R1 używają RL na verifiable rewards (matematyka, kod) do nauki długiego, krokowego rozumowania (chain-of-thought) — RL staje się core mechanizmem reasoning models.