Każdy agent i obserwuje (potencjalnie częściowy) stan o_i, wybiera akcję a_i ~ π_i(·|o_i), środowisko ewoluuje zgodnie z P(s'|s, a₁, …, a_N) i zwraca nagrody r_i = R_i(s, a₁, …, a_N). Cele agentów mogą być zgodne (kooperacja) lub przeciwstawne (kompetycja). Trenowanie odbywa się głównie w paradygmacie CTDE (centralised training, decentralised execution): podczas treningu krytyk widzi globalny stan i wszystkie akcje (centralised critic), a polityki π_i są lokalne. W kompetycyjnym MARL stosuje się self-play (agent gra przeciwko własnym wcześniejszym wersjom — fundament AlphaZero, AlphaStar). Główne rodziny algorytmów: (a) Independent Learning (IQL) — każdy agent traktuje pozostałych jako część środowiska, prosty ale niestabilny, (b) Value Decomposition (VDN, QMIX) — Q-funkcja wspólna dekomponuje się na sumę/monotonicznie z Q_i, (c) Actor-Critic z centralised critic (MADDPG, MAPPO, COMA), (d) Communication-based — agenci uczą się protokołów komunikacji, (e) Mean-field MARL — przybliżenie skali dla bardzo dużych N. Kluczowe pojęcia teorii gier: równowaga Nasha, Pareto-optymalność, social welfare, korelowana równowaga.
Jak nauczyć grupę agentów efektywnego współdziałania (lub konkurowania) w warunkach, gdy środowisko z perspektywy każdego z nich jest niestacjonarne, ponieważ pozostali agenci również uczą się i zmieniają zachowanie.
Formalna struktura matematyczna MARL: krotka (N, S, {A_i}, P, {R_i}, γ). Rozszerza MDP o wielu agentów z indywidualnymi przestrzeniami akcji i nagrodami.
Indywidualne polityki π_i(a_i|o_i) każdego agenta. W CTDE są wykonywane decentralizowane przy lokalnej obserwacji.
Oficjalna
Globalna funkcja wartości używana wyłącznie w czasie treningu (CTDE). Ma dostęp do wspólnego stanu i akcji wszystkich agentów, co stabilizuje uczenie.
Oficjalna
Pojęcie stabilnego punktu uczenia z teorii gier: Nash, correlated equilibrium, Pareto-optimal — definiuje "rozwiązanie" gry wieloagentowej.
Mechanizm treningu w grach kompetycyjnych — agent gra przeciwko aktualnym i wcześniejszym wersjom siebie. Generuje curriculum naturalnej trudności.
Oficjalna
Z perspektywy pojedynczego agenta środowisko jest niestacjonarne — pozostali agenci uczą się i zmieniają polityki. Naiwne stosowanie Independent Q-learning łamie założenia zbieżności.
W kooperacyjnym MARL trudno jest stwierdzić, który agent przyczynił się do globalnej nagrody. Wszystkie naiwne metody dają lazy/free-rider behavior.
Wspólna przestrzeń akcji rośnie wykładniczo z N: |A|^N. Dla 10 agentów z 10 akcjami to już 10¹⁰ wspólnych akcji — nie do obsłużenia bezpośrednio.
W general-sum games źle dobrane nagrody prowadzą do dominacji jednego agenta, do social dilemmas (Tragedy of the Commons) lub do reward hackingu.
W general-sum games nie ma gwarancji, że gradient-based learning zbiega do równowagi Nasha — możliwe są cykle, dryft, exploitation loops.
Większość Deep MARL algorytmów jest projektowana dla N ≤ 10–20. Skala N > 100 wymaga przybliżeń (mean-field, graph neural networks) i agresywnego parameter sharing.
John von Neumann udowadnia twierdzenie minimax dla gier dwuosobowych o sumie zerowej — fundament teorii gier i kompetycyjnego MARL.
John Nash definiuje pojęcie równowagi w grach niekooperacyjnych — kluczowe pojęcie celu uczenia w MARL.
Michael Littman formalnie definiuje MARL jako Markov Games i wprowadza algorytm minimax-Q dla gier o sumie zerowej.
Uogólnienie Q-learning na general-sum games z aktualizacją w kierunku równowagi Nasha.
Lowe et al. wprowadzają Multi-Agent DDPG z paradygmatem CTDE i centralised critics — pierwszy szeroko adoptowany Deep MARL algorithm.
OpenAI prezentuje zespół 5 agentów PPO, który pokonuje profesjonalnych graczy Dota 2 — przełom skali Deep MARL.
Rashid et al. wprowadzają QMIX z monotoniczną dekompozycją Q-funkcji — standard kooperacyjnego Deep MARL.
DeepMind osiąga poziom Grandmaster w StarCraft II — populacyjny self-play (league training) w kompetycyjnym MARL z partial observability i ogromną przestrzenią akcji.
Yu et al. pokazują, że PPO z drobnymi modyfikacjami osiąga konkurencyjne wyniki w MARL — silny baseline dla benchmarków SMAC/MPE.
Meta AI łączy MARL, modele językowe i planowanie strategiczne — Cicero osiąga poziom czołowych graczy w Diplomacy, grze wymagającej negocjacji w języku naturalnym.
Liczba uczących się agentów. Skala wpływa fundamentalnie na wybór algorytmu — N>1000 wymaga mean-field lub population-based methods.
Cooperative (wspólna), competitive (zero-sum) lub mixed (general-sum). Najważniejszy axis taksonomiczny MARL.
CTDE (centralised training, decentralised execution), fully centralised, fully decentralised. Determinuje strukturę architektury i przepływ informacji.
Brak komunikacji, dyskretne wiadomości, ciągłe wektory. Wpływa na zdolność koordynacji agentów.
Czy wszyscy homogeniczni agenci dzielą wagi sieci. Współdzielenie redukuje liczbę parametrów i przyspiesza trening, ale ogranicza heterogeniczność polityk.
Czy agent jawnie modeluje polityki innych agentów. Pomaga w niestacjonarnym środowisku, ale rośnie złożoność.
Każdy agent wykonuje swoją politykę warunkowo na lokalnej obserwacji. W CTDE krytyk warunkuje na globalnym stanie tylko podczas treningu.
MARL nie używa routingu w sensie MoE; "routing" pojawia się jedynie w kontekście komunikacji między agentami (kanały komunikacyjne).
Self-play i populacyjne treningi (PBT, AlphaStar league) są wybitnie paralelizowalne — wiele równoległych instancji środowisk, agentów-przeciwników, replay buforów. Aktualizacja gradientów pozostaje synchronizowana w obrębie pojedynczego learner-a.
Deep MARL używa głębokich sieci neuronowych do polityk i krytyków — GPU są optymalne dla mnożenia macierzy i równoległej oceny wielu agentów.
Symulacja środowisk wieloagentowych (PettingZoo, SMAC, MPE) jest CPU-bound. Populacyjny self-play wymaga setek równoległych CPU actorów + GPU learnera.
TPU używane przez DeepMind dla AlphaStar i populacyjnego treningu z dużymi batch sizes — duża skala równoległa.