Architektura

MDP

1957AktywnyOpublikowano: 30 maja 2026Aktualizacja: 30 maja 2026Opublikowany

Matematyczny model sekwencyjnego podejmowania decyzji w warunkach niepewności, w którym kolejny stan zależy wyłącznie od stanu bieżącego i akcji (własność Markowa).

Kluczowa innowacja

Formalizacja sekwencyjnego podejmowania decyzji w warunkach niepewności jako krotki (S, A, P, R, γ) z własnością Markowa — fundament teoretyczny całego Reinforcement Learning.

Kategoria

Architektura

Poziom abstrakcji

Primitive

Poziom operacji

TreningŚrodowisko agentowe

Zastosowania

Reinforcement Learning — fundament formalnySterowanie optymalne (optimal control)Operations research — zarządzanie zapasami, planowanie produkcjiRobotyka — planowanie ruchu, manipulacjaSieci komunikacyjne — routing adaptacyjnyModele epidemiologiczne i polityka zdrowotnaGry planszowe i komputeroweSystemy dialogowe i decyzyjne

Jak działa

W każdym kroku t agent obserwuje stan s_t ∈ S, wybiera akcję a_t ∈ A zgodnie z polityką π(a|s), środowisko przechodzi do stanu s_{t+1} ~ P(·|s_t, a_t) i zwraca nagrodę r_t = R(s_t, a_t). Cel: znaleźć politykę π* maksymalizującą funkcję wartości V^π(s) = E[Σ γ^t · r_t | s_0=s, π]. Optymalna funkcja wartości spełnia równanie Bellmana: V*(s) = max_a [R(s,a) + γ Σ_{s'} P(s'|s,a) V*(s')]. MDP jest rozwiązywany metodami: Value Iteration (iteracyjne zastosowanie operatora Bellmana), Policy Iteration (naprzemiennie ocena polityki i jej poprawa), oraz programowaniem liniowym. Gdy P i R są nieznane (model-free), używa się algorytmów RL (Q-learning, SARSA, policy gradients) operujących na próbkach trajektorii. Własność Markowa gwarantuje, że optymalna polityka jest stacjonarna i deterministyczna (dla MDP z dyskretnym S i A).

Rozwiązany problem

Jak matematycznie sformalizować problem podejmowania decyzji przez agenta w stochastycznym środowisku — tak, aby możliwe było udowodnienie istnienia optymalnej polityki i konstruowanie algorytmów ją znajdujących.

Komponenty

Przestrzeń stanów (S)Reprezentacja sytuacji świata

Zbiór wszystkich możliwych stanów środowiska. Może być dyskretny (skończony lub przeliczalny) lub ciągły (np. R^n).

Przestrzeń akcji (A)Wybór decyzji

Zbiór akcji dostępnych dla agenta. Może być dyskretna (np. {lewo, prawo, góra, dół}) lub ciągła (np. moment obrotowy w robotyce).

Funkcja przejść (P)Dynamika środowiska

P(s'|s,a) — prawdopodobieństwo przejścia do stanu s' po wykonaniu akcji a w stanie s. Definiuje stochastyczną dynamikę środowiska.

Funkcja nagrody (R)Definicja celu

R(s,a) lub R(s,a,s') — skalarna nagroda zwracana przez środowisko. Definiuje cel agenta — wszystko, co MDP optymalizuje, jest sumą zdyskontowanych nagród.

Współczynnik dyskontowania (γ)Bilansowanie krótko- i długoterminowych nagród

γ ∈ [0,1]. Waga przyszłych nagród względem bieżących. γ < 1 gwarantuje zbieżność szeregu nagród dla horyzontu nieskończonego.

Oficjalna

Polityka (π)Strategia decyzyjna agenta

π(a|s) — funkcja mapująca stan na rozkład prawdopodobieństwa akcji. Rozwiązaniem MDP jest polityka optymalna π*.

Polityka deterministycznaπ(s) zwraca jedną akcję.

Polityka stochastycznaπ(a|s) zwraca rozkład prawdopodobieństwa.

Oficjalna

Implementacja

Implementacje referencyjne

Gymnasium

Python · Farama Foundation

Oficjalna

mdptoolbox (Python)

Python · Steven Cordwell

POMDPs.jl

Julia · JuliaPOMDP

Oficjalna

Pułapki implementacyjne

Naruszenie własności MarkowaKrytyczna

Jeśli stan nie zawiera pełnej informacji potrzebnej do predykcji przyszłości, problem nie jest poprawnym MDP — algorytmy mogą nie zbiegać do optymalnej polityki.

Rozwiązanie:Rozszerzenie reprezentacji stanu (np. stacking ostatnich klatek), użycie POMDP, dodanie pamięci (RNN, transformer) do agenta.

Curse of dimensionalityWysoka

Wykładniczy wzrost rozmiaru przestrzeni stanów przy wzroście wymiarowości czyni egzakcjne rozwiązania niewykonalnymi.

Rozwiązanie:Aproksymacja funkcji wartości (Deep RL), agregacja stanów, dekompozycja hierarchiczna, factored MDP.

Niepełna obserwowalnośćWysoka

W rzeczywistych zadaniach agent rzadko obserwuje pełny stan — naiwne stosowanie MDP zamiast POMDP prowadzi do suboptymalnej polityki.

Rozwiązanie:Modelowanie jako POMDP, użycie belief states, agentów z pamięcią (LSTM, transformer).

Nagrody niestacjonarneŚrednia

Standardowe MDP zakłada stacjonarność P i R. Gdy środowisko się zmienia, optymalna polityka też się zmienia — wymaga rozszerzeń (non-stationary MDP, contextual MDP).

Rozwiązanie:Modelowanie jako contextual MDP, online learning, meta-learning, ciągła adaptacja polityki.