Trening

MARL

1994AktywnyOpublikowano: 30 maja 2026Aktualizacja: 30 maja 2026Opublikowany

Paradygmat RL, w którym wielu agentów uczy się jednocześnie w tym samym środowisku, każdy maksymalizując własną nagrodę przy interakcjach kooperacyjnych, kompetycyjnych lub mieszanych.

Kluczowa innowacja

Rozszerzenie Reinforcement Learning na środowiska z wieloma jednoczesnymi agentami, w których optymalna polityka pojedynczego agenta zależy od ewoluujących polityk pozostałych — wprowadzenie teorii gier i koncepcji równowagi do uczenia przez nagrodę.

Kategoria

Trening

Poziom abstrakcji

Paradygmat

Poziom operacji

TreningŚrodowisko agentowe

Zastosowania

Gry strategiczne (AlphaStar/StarCraft II, OpenAI Five/Dota 2, Cicero/Diplomacy)Sterowanie flotami autonomicznych pojazdówKoordynacja rojów dronówOptymalizacja sieci komunikacyjnych i routing pakietówSmart grids — koordynacja dystrybucji energiiTrading w systemach wieloagentowych i market makingRobotyka kooperacyjna (multi-robot manipulation, mobile robots)Sterowanie sygnalizacją świetlną w miastachSymulacje społeczne i ekonomiczneMulti-agent system alignment dla LLM

Jak działa

Każdy agent i obserwuje (potencjalnie częściowy) stan o_i, wybiera akcję a_i ~ π_i(·|o_i), środowisko ewoluuje zgodnie z P(s'|s, a₁, …, a_N) i zwraca nagrody r_i = R_i(s, a₁, …, a_N). Cele agentów mogą być zgodne (kooperacja) lub przeciwstawne (kompetycja). Trenowanie odbywa się głównie w paradygmacie CTDE (centralised training, decentralised execution): podczas treningu krytyk widzi globalny stan i wszystkie akcje (centralised critic), a polityki π_i są lokalne. W kompetycyjnym MARL stosuje się self-play (agent gra przeciwko własnym wcześniejszym wersjom — fundament AlphaZero, AlphaStar). Główne rodziny algorytmów: (a) Independent Learning (IQL) — każdy agent traktuje pozostałych jako część środowiska, prosty ale niestabilny, (b) Value Decomposition (VDN, QMIX) — Q-funkcja wspólna dekomponuje się na sumę/monotonicznie z Q_i, (c) Actor-Critic z centralised critic (MADDPG, MAPPO, COMA), (d) Communication-based — agenci uczą się protokołów komunikacji, (e) Mean-field MARL — przybliżenie skali dla bardzo dużych N. Kluczowe pojęcia teorii gier: równowaga Nasha, Pareto-optymalność, social welfare, korelowana równowaga.

Rozwiązany problem

Jak nauczyć grupę agentów efektywnego współdziałania (lub konkurowania) w warunkach, gdy środowisko z perspektywy każdego z nich jest niestacjonarne, ponieważ pozostali agenci również uczą się i zmieniają zachowanie.

Komponenty

Stochastic Game / Markov GameFormalny model środowiska wieloagentowego

Formalna struktura matematyczna MARL: krotka (N, S, {A_i}, P, {R_i}, γ). Rozszerza MDP o wielu agentów z indywidualnymi przestrzeniami akcji i nagrodami.

Dec-POMDPDecentralised partially observable MDP — kooperacyjny MARL z częściową obserwowalnością.

Zero-sum gameCzysta kompetycja — suma nagród agentów = 0.

General-sum gameMieszany reżim z elementami kooperacji i kompetycji.

Polityki agentów (π_i)Decyzje pojedynczych agentów

Indywidualne polityki π_i(a_i|o_i) każdego agenta. W CTDE są wykonywane decentralizowane przy lokalnej obserwacji.

Oficjalna

Centralised critic / value functionStabilizacja gradientów polityki

Globalna funkcja wartości używana wyłącznie w czasie treningu (CTDE). Ma dostęp do wspólnego stanu i akcji wszystkich agentów, co stabilizuje uczenie.

Oficjalna

Equilibrium conceptDefinicja rozwiązania gry

Pojęcie stabilnego punktu uczenia z teorii gier: Nash, correlated equilibrium, Pareto-optimal — definiuje "rozwiązanie" gry wieloagentowej.

Self-play loopCurriculum dla treningu kompetycyjnego

Mechanizm treningu w grach kompetycyjnych — agent gra przeciwko aktualnym i wcześniejszym wersjom siebie. Generuje curriculum naturalnej trudności.

Oficjalna

Implementacja

Implementacje referencyjne

PettingZoo

Python · Farama Foundation

Oficjalna

EPyMARL

Python (PyTorch) · University of Edinburgh

MARLlib

Python (Ray RLlib) · Replicable-MARL

OpenSpiel (DeepMind)

Python / C++ · Google DeepMind

Oficjalna

StarCraft Multi-Agent Challenge (SMAC)

Python · WhiRL (Oxford)

RLlib (Ray) — multi-agent API

Python · Anyscale / Ray

Oficjalna

Pułapki implementacyjne

Niestacjonarność środowiskaKrytyczna

Z perspektywy pojedynczego agenta środowisko jest niestacjonarne — pozostali agenci uczą się i zmieniają polityki. Naiwne stosowanie Independent Q-learning łamie założenia zbieżności.

Rozwiązanie:CTDE z centralised critic, opponent modeling, populacyjny self-play z opponent buffer, stabilizacja przez parameter sharing.

Multi-agent credit assignmentWysoka

W kooperacyjnym MARL trudno jest stwierdzić, który agent przyczynił się do globalnej nagrody. Wszystkie naiwne metody dają lazy/free-rider behavior.

Rozwiązanie:Difference rewards, COMA (Counterfactual Multi-Agent), value decomposition (VDN, QMIX, QTRAN), Shapley-value-based credit assignment.

Eksplozja kombinatoryczna joint action spaceWysoka

Wspólna przestrzeń akcji rośnie wykładniczo z N: |A|^N. Dla 10 agentów z 10 akcjami to już 10¹⁰ wspólnych akcji — nie do obsłużenia bezpośrednio.

Rozwiązanie:Decentralised execution z lokalnymi politykami, value decomposition, mean-field approximation, czynnikowe (factored) Q-funkcje.

Reward shaping w grach mieszanychWysoka

W general-sum games źle dobrane nagrody prowadzą do dominacji jednego agenta, do social dilemmas (Tragedy of the Commons) lub do reward hackingu.

Rozwiązanie:Mechanism design, opponent shaping (LOLA), inequity aversion, careful reward design and validation.

Brak konwergencji do równowagiWysoka

W general-sum games nie ma gwarancji, że gradient-based learning zbiega do równowagi Nasha — możliwe są cykle, dryft, exploitation loops.

Rozwiązanie:Population-based training, fictitious play, double oracle, league training (AlphaStar), regularizacja entropią.

Skalowalność do dużych NŚrednia

Większość Deep MARL algorytmów jest projektowana dla N ≤ 10–20. Skala N > 100 wymaga przybliżeń (mean-field, graph neural networks) i agresywnego parameter sharing.

Rozwiązanie:Mean-field MARL, graph-based architectures (GNN), hierarchical MARL, attention-based agents.

Ewolucja

Oryginalny paper · 1994 · ICML 1994 · Michael L. Littman

Markov Games as a Framework for Multi-Agent Reinforcement Learning

Michael L. Littman

1928

Twierdzenie minimax (von Neumann)

Punkt przełomowy

John von Neumann udowadnia twierdzenie minimax dla gier dwuosobowych o sumie zerowej — fundament teorii gier i kompetycyjnego MARL.

1950

Równowaga Nasha

Punkt przełomowy

John Nash definiuje pojęcie równowagi w grach niekooperacyjnych — kluczowe pojęcie celu uczenia w MARL.

1994

Littman: Markov Games framework dla MARL

Punkt przełomowy

Michael Littman formalnie definiuje MARL jako Markov Games i wprowadza algorytm minimax-Q dla gier o sumie zerowej.

Markov Games as a Framework for Multi-Agent Reinforcement Learning (artykuł)

2003

Hu & Wellman: Nash Q-learning

Uogólnienie Q-learning na general-sum games z aktualizacją w kierunku równowagi Nasha.

2017

MADDPG (OpenAI)

Punkt przełomowy

Lowe et al. wprowadzają Multi-Agent DDPG z paradygmatem CTDE i centralised critics — pierwszy szeroko adoptowany Deep MARL algorithm.

Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments (artykuł)

2018

OpenAI Five — Dota 2

Punkt przełomowy

OpenAI prezentuje zespół 5 agentów PPO, który pokonuje profesjonalnych graczy Dota 2 — przełom skali Deep MARL.

2018

QMIX — Value Decomposition

Rashid et al. wprowadzają QMIX z monotoniczną dekompozycją Q-funkcji — standard kooperacyjnego Deep MARL.

QMIX: Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning (artykuł)

2019

AlphaStar — StarCraft II Grandmaster

Punkt przełomowy

DeepMind osiąga poziom Grandmaster w StarCraft II — populacyjny self-play (league training) w kompetycyjnym MARL z partial observability i ogromną przestrzenią akcji.

2021

MAPPO

Yu et al. pokazują, że PPO z drobnymi modyfikacjami osiąga konkurencyjne wyniki w MARL — silny baseline dla benchmarków SMAC/MPE.

The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games (artykuł)

2022

Cicero (Meta) — Diplomacy

Punkt przełomowy

Meta AI łączy MARL, modele językowe i planowanie strategiczne — Cicero osiąga poziom czołowych graczy w Diplomacy, grze wymagającej negocjacji w języku naturalnym.