Architektura składa się z dwóch wariantów modułu RecursiveLink — lekkiej dwuwarstwowej sieci. Inner RecursiveLink działa wewnątrz pojedynczego agenta: zamiast dekodować tekst podczas pośredniego rozumowania, mapuje generowane embeddingi z ostatniej warstwy z powrotem do przestrzeni wejściowej tego samego modelu, tworząc pętlę „ukrytych myśli”. Outer RecursiveLink łączy różne agenty: dopasowuje embeddingi między modelami o różnych wymiarach przestrzeni reprezentacji (np. Qwen ↔ Llama-3 ↔ Gemma3 ↔ Mistral). Wagi modeli bazowych są zamrożone — gradient trenuje wyłącznie parametry RecursiveLink, co stanowi około 0,31% łącznych parametrów. Jeśli dwóch agentów korzysta z tego samego modelu bazowego w różnych rolach, do pamięci GPU ładowana jest jedna kopia modelu i dwa zestawy parametrów RecursiveLink.
Standardowe systemy wieloagentowe (MAS) tracą wydajność na komunikacji przez tekst: każdy agent musi dekodować rozumowanie do tokenów, a następny agent koduje je z powrotem do embeddingów. To podwójne tłumaczenie zwiększa latencję, zużycie tokenów i utrudnia trening end-to-end przez gradienty.
Lekka dwuwarstwowa sieć wewnątrz pojedynczego agenta. Mapuje ostatnie ukryte stany modelu z powrotem do jego przestrzeni wejściowej, tworząc pętlę pośredniego rozumowania bez generowania tekstu.
Lekka dwuwarstwowa sieć pomostowa łącząca dwóch sąsiednich agentów. Dopasowuje ukryte stany jednego modelu do przestrzeni wejściowej drugiego, gdy modele mają różne wymiary embeddingów.
Pretrenowane LLM (testowane na Qwen, Llama-3, Gemma3, Mistral) pełniące rolę agentów. Wagi pozostają zamrożone w czasie treningu — aktualizowane są wyłącznie parametry RecursiveLink.
Oficjalna
Rekurencyjne systemy wieloagentowe muszą mieć jawny warunek stopu — bez niego agenci mogą wywołać się wzajemnie w nieskończonej pętli, wyczerpując zasoby.
Błąd na poziomie N rekurencji propaguje się do wszystkich wyższych poziomów. Głęboka rekurencja wymaga mechanizmów weryfikacji wyników na każdym poziomie.
Badacze z UIUC i Stanford publikują framework wraz z kodem i wagami na licencji Apache 2.0 (GitHub, Hugging Face).
RecursiveMAS przetestowano na 9 benchmarkach obejmujących matematykę, nauki ścisłe i medycynę, generowanie kodu oraz odpowiadanie na pytania z wyszukiwaniem. Porównania objęły samodzielne modele z LoRA i pełnym fine-tuningiem, alternatywne frameworki wieloagentowe (Mixture-of-Agents, TextGrad) oraz Recursive-TextMAS (ten sam schemat rekurencyjny, ale komunikacja przez tekst). Średnia przewaga nad najsilniejszymi metodami bazowymi wyniosła 8,3%. Największy dystans odnotowano na zadaniach intensywnie wykorzystujących rozumowanie: +18,1% nad TextGrad na AIME2025 i +13% na AIME2026.
Ile razy łańcuch agentów wykonuje się przed wygenerowaniem finalnej odpowiedzi. Większa liczba rund zwiększa dokładność, ale skaluje liniowo koszty obliczeniowe.
Liczba modeli bazowych biorących udział w pojedynczej rundzie rekursji. Walidowane do 3–4 agentów; skalowanie wyżej pozostaje otwartym pytaniem badawczym.
Wymiar wewnętrzny dwuwarstwowej sieci RecursiveLink. Wpływa na łączną liczbę parametrów (~13 mln w konfiguracji referencyjnej).
Każda runda rekursji aktywuje pełny łańcuch agentów; tryb conditional odnosi się do liczby rund (zatrzymanie zależne od stanu).
W obrębie jednej rundy rekursji agenci muszą być przetwarzani sekwencyjnie (wyjście jednego = wejście kolejnego). Trening pojedynczych RecursiveLink może być równoległy między rundami batcha.
Inferencja LLM dominuje koszt; RecursiveLink to dodatkowo lekkie operacje macierzowe na ukrytych reprezentacjach.