Architektura

RecursiveMAS

2026BadawczyOpublikowany

RecursiveMAS to framework systemu wieloagentowego, w którym agenci wymieniają między sobą ukryte stany sieci zamiast tekstu, a cały łańcuch działa jak rekurencyjna pętla warstw nad zamrożonymi modelami bazowymi.

Kluczowa innowacja

Agenci w systemie wieloagentowym komunikują się ukrytymi reprezentacjami (last-layer hidden states) zamiast wygenerowanymi tokenami tekstu, eliminując narzut dekodowania i kodowania między modelami.

Kategoria

Architektura

Poziom abstrakcji

Wzorzec

Poziom operacji

SystemInferencjaTreningŚrodowisko agentoweOrkiestracja

Zastosowania

Wieloagentowe pipeline'y rozumowania matematycznegoSystemy wieloagentowe do generowania koduMulti-agent QA z wyszukiwaniem i weryfikacjąAgenci medyczni z wieloetapową diagnostykąHeterogeniczne zespoły LLM (różne modele bazowe w jednym systemie)Redukcja kosztów tokenów w wieloagentowych wdrożeniach produkcyjnych

Jak działa

Architektura składa się z dwóch wariantów modułu RecursiveLink — lekkiej dwuwarstwowej sieci. Inner RecursiveLink działa wewnątrz pojedynczego agenta: zamiast dekodować tekst podczas pośredniego rozumowania, mapuje generowane embeddingi z ostatniej warstwy z powrotem do przestrzeni wejściowej tego samego modelu, tworząc pętlę „ukrytych myśli”. Outer RecursiveLink łączy różne agenty: dopasowuje embeddingi między modelami o różnych wymiarach przestrzeni reprezentacji (np. Qwen ↔ Llama-3 ↔ Gemma3 ↔ Mistral). Wagi modeli bazowych są zamrożone — gradient trenuje wyłącznie parametry RecursiveLink, co stanowi około 0,31% łącznych parametrów. Jeśli dwóch agentów korzysta z tego samego modelu bazowego w różnych rolach, do pamięci GPU ładowana jest jedna kopia modelu i dwa zestawy parametrów RecursiveLink.

Rozwiązany problem

Standardowe systemy wieloagentowe (MAS) tracą wydajność na komunikacji przez tekst: każdy agent musi dekodować rozumowanie do tokenów, a następny agent koduje je z powrotem do embeddingów. To podwójne tłumaczenie zwiększa latencję, zużycie tokenów i utrudnia trening end-to-end przez gradienty.

Kluczowe mechanizmy

Komunikacja przez ostatnie ukryte stany (last-layer hidden states) zamiast wygenerowanych tokenów tekstu

Rekurencyjna pętla agentów — wyjście ostatniego agenta wraca do pierwszego, otwierając kolejną rundę rozumowania

Inner RecursiveLink — wewnątrzagentowa pętla mapująca embeddingi z powrotem do przestrzeni wejściowej modelu

Outer RecursiveLink — międzyagentowy most dopasowujący embeddingi między modelami o różnych wymiarach

Zamrożenie wag modeli bazowych i trening wyłącznie lekkich modułów RecursiveLink (~0,31% łącznych parametrów)

Dekodowanie tekstu tylko raz, na końcu ostatniej rundy rekursji

Współdzielenie pojedynczej kopii modelu bazowego między agentami pełniącymi różne role w systemie

Mocne strony i ograniczenia

Mocne strony

✓2,4× szybsze wnioskowanie względem wieloagentowych systemów komunikujących się tekstem

✓Redukcja zużycia tokenów o 75,6% w trzeciej rundzie rekursji vs Recursive-TextMAS

✓Średnio 8,3% wyższa dokładność niż najsilniejsze bazowe metody na 9 benchmarkach

✓Koszt treningu ponad 2× niższy niż pełny fine-tuning — aktualizowane jest tylko ~13 mln parametrów

✓Działa heterogenicznie — łączy modele różnych rodzin (Qwen, Llama-3, Gemma3, Mistral) w jednym systemie

✓Oszczędność pamięci GPU dzięki współdzieleniu jednej kopii modelu bazowego przez wiele ról agentowych

✓Kod i wagi modeli udostępnione publicznie na licencji Apache 2.0 (GitHub, Hugging Face)

Ograniczenia

✗Sekwencyjna natura łańcucha — agenci w jednej rundzie muszą wykonywać się po kolei (output→input), brak parallelizmu wewnątrzrundowego

✗Walidacja przeprowadzona głównie dla 3–4 agentów; zachowanie przy większej liczbie pozostaje otwartym pytaniem badawczym

✗Skuteczność przy bardzo długich kontekstach nie została jeszcze zmierzona

✗Eksperymenty ograniczone do otwartych modeli (Qwen, Llama-3, Gemma3, Mistral) — brak walidacji dla modeli zamkniętych i architektur MoE

✗Przekazywanie ukrytych stanów wymaga zgodności wersji modeli — aktualizacja jednego modelu bazowego może wymagać retreningu RecursiveLink

✗Brak interpretowalności pośrednich kroków — rozumowanie odbywa się w przestrzeni embeddingów, nie w tekście czytelnym dla człowieka

✗Trening end-to-end nadal wymaga propagacji wstecznej przez łańcuch dużych modeli, mimo zamrożenia ich wag

Komponenty

Inner RecursiveLinkWewnątrzagentowa pętla ukrytych myśli

Lekka dwuwarstwowa sieć wewnątrz pojedynczego agenta. Mapuje ostatnie ukryte stany modelu z powrotem do jego przestrzeni wejściowej, tworząc pętlę pośredniego rozumowania bez generowania tekstu.

Outer RecursiveLinkMiędzyagentowy most embeddingów

Lekka dwuwarstwowa sieć pomostowa łącząca dwóch sąsiednich agentów. Dopasowuje ukryte stany jednego modelu do przestrzeni wejściowej drugiego, gdy modele mają różne wymiary embeddingów.

Zamrożone modele bazoweAgenci wykonujący rozumowanie

Pretrenowane LLM (testowane na Qwen, Llama-3, Gemma3, Mistral) pełniące rolę agentów. Wagi pozostają zamrożone w czasie treningu — aktualizowane są wyłącznie parametry RecursiveLink.

Oficjalna

Implementacja

Pułapki implementacyjne

Ryzyko nieskończonej rekurencji bez warunku stopuŚrednia

Rekurencyjne systemy wieloagentowe muszą mieć jawny warunek stopu — bez niego agenci mogą wywołać się wzajemnie w nieskończonej pętli, wyczerpując zasoby.

Akumulacja błędów przez poziomy rekurencjiŚrednia

Błąd na poziomie N rekurencji propaguje się do wszystkich wyższych poziomów. Głęboka rekurencja wymaga mechanizmów weryfikacji wyników na każdym poziomie.

Ewolucja

Oryginalny paper · 2026 · Preprint (UIUC, Stanford)

RecursiveMAS: Recursive Multi-Agent Systems with Hidden-State Communication

2026

Publikacja RecursiveMAS

Punkt przełomowy

Badacze z UIUC i Stanford publikują framework wraz z kodem i wagami na licencji Apache 2.0 (GitHub, Hugging Face).

Źródła

How RecursiveMAS speeds up multi-agent inference by 2.4x and reduces token usage by 75%

article

VentureBeat

RecursiveMAS repository

Repozytorium

GitHub

RecursiveMAS model weights

code

Hugging Face

Złożoność obliczeniowa

Charakterystyki obliczeniowe

→Inferencja: 1,2×–2,4× szybsza niż wieloagentowy odpowiednik tekstowy (zależnie od konfiguracji)

→Zużycie tokenów: −34,6% w pierwszej rundzie, −75,6% w trzeciej rundzie vs Recursive-TextMAS (efekt skumulowany)

→Trening: aktualizacja ~13 mln parametrów RecursiveLink (~0,31% sumy parametrów modeli bazowych)

→Koszt treningu ponad 2× niższy niż pełny fine-tuning łańcucha modeli

→Pamięć GPU: pojedyncza kopia modelu bazowego obsługuje wiele ról agentowych przez osobne zestawy RecursiveLink

→Dokładność: średnio +8,3% względem najsilniejszych baselines na 9 benchmarkach

→Skala walidacji: 3–4 agentów w jednym łańcuchu rekursji

Uwagi do benchmarku

RecursiveMAS przetestowano na 9 benchmarkach obejmujących matematykę, nauki ścisłe i medycynę, generowanie kodu oraz odpowiadanie na pytania z wyszukiwaniem. Porównania objęły samodzielne modele z LoRA i pełnym fine-tuningiem, alternatywne frameworki wieloagentowe (Mixture-of-Agents, TextGrad) oraz Recursive-TextMAS (ten sam schemat rekurencyjny, ale komunikacja przez tekst). Średnia przewaga nad najsilniejszymi metodami bazowymi wyniosła 8,3%. Największy dystans odnotowano na zadaniach intensywnie wykorzystujących rozumowanie: +18,1% nad TextGrad na AIME2025 i +13% na AIME2026.