RecursiveMAS: agenci AI bez tokenów — 2,4× szybciej

Badacze z Uniwersytetu Illinois w Urbana-Champaign i Stanford University opracowali framework RecursiveMAS, który eliminuje podstawowy koszt nowoczesnych systemów wieloagentowych: komunikację przez tekst. Zamiast generować i parsować sekwencje tokenów, agenci przekazują sobie ukryte reprezentacje wewnętrzne, co pozwala osiągnąć 2,4× szybsze wnioskowanie i zredukować zużycie tokenów o 75% względem odpowiednika opartego na tekście. Kod i wytrenowane wagi modeli są dostępne na licencji Apache 2.0.

Najważniejsze w skrócie

Framework RecursiveMAS opracowany przez badaczy UIUC i Stanford, opublikowany maj 2026
Komunikacja przez embeddingi zamiast tekstu — 2,4× szybsze wnioskowanie (zakres: 1,2×–2,4×)
Redukcja zużycia tokenów o 75,6% w trzeciej rundzie rekursji względem Recursive-TextMAS
Dokładność wyższa o 8,3% od najsilniejszych bazowych metod na 9 benchmarkach
Trening kosztuje ponad 2× mniej niż pełny fine-tuning — aktualizuje tylko ~0,31% parametrów

Problem: agenci generują tekst dla agentów

Multi-Agent Systems działają na prostej zasadzie: jeden model generuje odpowiedź tekstową, przekazuje ją kolejnemu, ten przetwarza i dalej. Każdy krok wiąże się z pełnym cyklem generowania tokenów — model musi przetłumaczyć swoje wewnętrzne rozumowanie na tekst, żeby sąsiad mógł je przeczytać, a potem przetłumaczyć z powrotem na reprezentację wektorową.

To podwójne tłumaczenie generuje trzy rodzaje strat. Po pierwsze, latencja: każdy agent czeka, aż poprzednik skończy generować tekst przed rozpoczęciem własnego przetwarzania. Po drugie, koszt tokenów: pośrednie rozumowanie, które nigdy nie jest potrzebne użytkownikowi, musi być zakodowane jako sekwencje widocznych tokenów. Po trzecie, trudność treningu: aktualizacja całego systemu wieloagentowego przez gradienty wymaga propagacji wstecznej przez generowanie tekstu — operacji o wysokich wymaganiach obliczeniowych.

Standardowe podejście do poprawy systemu — fine-tuning każdego agenta z osobna lub metoda LoRA — nie rozwiązuje problemu, bo każdy agent nadal musi komunikować się tekstem z resztą systemu.

RecursiveMAS: architektura rekurencyjna

Autorzy zainspirowali się rekurencyjnymi LLM (RLM), w których zamiast liniowego stosu warstw, zestaw warstw przetwarza dane w pętli — ta sama „warstwa" obsługuje wiele przejść. RecursiveMAS rozciąga tę zasadę na cały system wieloagentowy.

W praktycznym sensie: każdy agent w systemie działa jak jedna warstwa rekurencyjna. Nie generuje tekstu dla następnego — przekazuje mu swoje ostatnie ukryte stany (last-layer hidden states), które zawierają pełną semantyczną reprezentację rozumowania. Ostatni agent w łańcuchu wysyła swoje embeddingi z powrotem do pierwszego, otwierając nową rundę rekursji. Tekst pojawia się tylko raz: gdy ostatni agent zwraca finalną odpowiedź w ostatniej rundzie.

Kluczowym elementem technicznym jest moduł RecursiveLink — lekki, dwuwarstwowy komponent pełniący dwie funkcje. Inner RecursiveLink działa wewnątrz agenta: zamiast dekodować tekst podczas rozumowania, mapuje generowane embeddingi z powrotem do przestrzeni wejściowej tego samego modelu, tworząc pętlę ukrytych myśli. Outer RecursiveLink służy jako most między agentami: ponieważ różne modele (Qwen, Llama-3, Gemma3, Mistral AI) mogą mieć embeddingi w przestrzeniach o różnych wymiarach, ta warstwa dopasowuje reprezentacje między modelami.

Wagi bazowych modeli pozostają zamrożone — trening aktualizuje wyłącznie parametry RecursiveLink. To około 13 milionów parametrów, co stanowi 0,31% łącznej liczby parametrów zamrożonych modeli. Dzięki temu koszt treningu jest ponad 2× niższy niż przy pełnym fine-tuningu.

Wyniki: co daje wymiana tekstu na embeddingi

Badacze przetestowali RecursiveMAS na 9 benchmarkach obejmujących matematykę, nauki ścisłe i medycynę, generowanie kodu oraz odpowiadanie na pytania z wyszukiwaniem. Porównania obejmowały samodzielne modele z LoRA lub pełnym fine-tuningiem, alternatywne frameworki wieloagentowe (Mixture-of-Agents, TextGrad), oraz Recursive-TextMAS — ten sam schemat rekurencyjny, ale z komunikacją przez tekst.

Przewaga nad najsilniejszymi metodami bazowymi wyniosła średnio 8,3%. Największy dystans widać na zadaniach intensywnie korzystających z rozumowania: RecursiveMAS pobił TextGrad o 18,1% na AIME2025 i 13% na AIME2026.

Oszczędności tokenowe są skumulowane: w pierwszej rundzie rekursji zużycie jest o 34,6% niższe niż w Recursive-TextMAS. Do trzeciej rundy przewaga rośnie do 75,6%. Przyspieszenie wnioskowania mieści się w przedziale 1,2×–2,4× w zależności od konfiguracji.

Dodatkową zaletą jest obsługa wielokrotnie używanego modelu bazowego. Jeśli dwa agenty w systemie korzystają z tego samego modelu fundacyjnego w różnych rolach, nie trzeba ładować dwóch kopii do pamięci GPU — wystarczy jedna kopia modelu i dwa zestawy parametrów RecursiveLink.

Dlaczego to ważne?

Wdrożenia produkcyjne wieloagentowych systemów AI rozbiją się dziś o dwie bariery: koszt tokenów i latencję. Każdy krok komunikacji między agentami to wywołanie API z rachunkiem i opóźnienie wynikające z sekwencyjnego generowania. W systemach z wieloma rundami planowania — na przykład agentach kodujących, systemach wyszukiwania z wieloma etapami weryfikacji czy agentach medycznych — te koszty szybko stają się prohibitywne.

RecursiveMAS proponuje jakościowo inne podejście: zamiast optymalizować generowanie tekstu, całkowicie go eliminuje z warstwy komunikacji między agentami. To zmiana architektoniczna, a nie parametryczna. Dla firm wdrażających agentowe pipeline'y z wieloma modelami oznacza to potencjalnie 2–4× tańszą eksploatację przy wyższej dokładności.

Istotne jest też podejście do treningu: zamrożenie bazowych modeli i aktualizowanie wyłącznie lekkich warstw łączących pozwala organizacjom budować i usprawniać własne systemy wieloagentowe bez konieczności trenowania dużych modeli od zera lub ponoszenia kosztów LoRA na każdym z nich. Kod i wagi są dostępne publicznie na licencji Apache 2.0 na GitHub, co usuwa barierę wejścia dla zespołów badawczych i enterprise.

Co dalej?

Autorzy opublikowali kod i wagi modeli na GitHub i Hugging Face (Apache 2.0) — framework jest dostępny do testów produkcyjnych już teraz
Eksperymenty przeprowadzono na otwartych modelach (Qwen, Llama-3, Gemma3, Mistral) — kolejnym krokiem będzie weryfikacja na modelach zamkniętych i architekturach MoE
Kluczowym nierozwiązanym pytaniem pozostaje zachowanie systemu przy skalowaniu do więcej niż 3–4 agentów i bardzo długich kontekstach