Więcej agentów AI to nie zawsze lepiej. Zaskakujące badanie DeepMind

Badacze z Google udowodnili, że bezrefleksyjne mnożenie agentów AI często prowadzi do masowego powielania błędów i drastycznego spadku wydajności w określonych zadaniach. Najnowsza praca naukowa obala popularny mit branży technologicznej, wprowadzając rygorystyczne zasady projektowania systemów sztucznej inteligencji w miejsce dotychczasowych zgadywanek. To przełom, który pozwoli firmom zoptymalizować koszty obliczeniowe i diametralnie zwiększyć niezawodność modeli.

Najważniejsze w skrócie

Przeanalizowano 180 różnych konfiguracji agentów, wykorzystując najpopularniejsze modele rynkowe.
Zespoły niezależnych, niekomunikujących się agentów potrafią potęgować błędy nawet 17-krotnie.
W zadaniach wymagających ścisłej kolejności działań (sekwencyjnych), systemy wieloagentowe radzą sobie znacznie gorzej od pojedynczych modeli – skuteczność spada nawet o 70%.
Stworzono model predykcyjny, który z 87-procentową skutecznością potrafi dobrać optymalną architekturę na podstawie parametrów nowego zadania.

Zderzenie ze ścianą: koniec heurystyki w AI

W branży technologicznej przez długi czas dominowało przekonanie, że wydajność systemów opartych na LLM rośnie liniowo wraz ze wzrostem liczby zaangażowanych w proces agentów. Wcześniejsze, popularne podejścia (np. opisane w pracach typu More Agents Is All You Need) sugerowały, że współpraca grupy wirtualnych asystentów z reguły deklasuje pojedynczy model.

Najnowsza praca badawcza DeepMind pt. Towards a Science of Scaling Agent Systems brutalnie weryfikuje te założenia. Naukowcy przetestowali architekturę pojedynczego agenta (SAS) oraz cztery typy systemów wieloagentowych (niezależne, scentralizowane, zdecentralizowane i hybrydowe). Okazało się, że „rzucanie” większej liczby jednostek do rozwiązania problemu napotyka na wyraźny sufit, a w wielu przypadkach wręcz obniża skuteczność.

Złożoność zadania decyduje o sukcesie

Testy przeprowadzone na największych rynkowych graczach – modelach OpenAI GPT, Google Gemini oraz AnthropicClaude – wykazały bardzo zróżnicowane zachowanie agencji w zależności od specyfiki zadania.

Z jednej strony, w zadaniach łatwych do zrównoleglenia (np. analiza finansowa z użyciem Finance-Agent, gdzie bada się niezależnie trendy rynkowe i koszty), scentralizowana koordynacja zwiększyła wydajność w stosunku do pojedynczego agenta aż o 80,9%. Z drugiej strony, narzucenie wielu agentów do zadań o ścisłej architekturze sekwencyjnej (np. złożone planowanie logiczne w środowisku PlanCraft) doprowadziło do załamania wydajności – wyniki spadły od 39% do nawet 70%. Zjawisko to określono mianem „kary za sekwencyjność”. Wynika ona z faktu, że koszty komunikacji między modelami przerywają proces rozumowania, wyczerpując wirtualny „budżet poznawczy” niezbędny do ukończenia misji.

Ogromnym problemem okazała się również propagacja błędów. Architektury bazujące na niezależnych agentach (bez mechanizmów krzyżowej kontroli) potęgowały początkowy błąd ze wskaźnikiem na poziomie 17.2x. Wprowadzenie głównego koordynatora w systemach scentralizowanych działało jak swoiste "wąskie gardło weryfikacyjne", zmniejszając mnożnik błędu do o wiele bezpieczniejszych 4.4x.

Dlaczego to ważne?

Dotychczasowy rozwój systemów opartych o zaawansowane modele językowe przypominał nieco alchemię. Większość startupów i korporacji wychodziła z prostego założenia: jeśli jeden model radzi sobie z zadaniem przeciętnie, zaprzęgnijmy do tego samego procesu rój współpracujących asystentów. Publikacja badaczy Google stawia grubą kreskę i kończy tę fazę chaotycznych eksperymentów. To absolutnie kluczowy moment dla całej branży, oznaczający przejście do inżynierii opartej na twardych, mierzalnych dowodach.

Przede wszystkim wyniki te chronią organizacje przed katastrofalnymi w skutkach wdrożeniami komercyjnymi. Ujawniony wskaźnik 17-krotnego potęgowania błędów w systemach niezależnych pokazuje, jak skrajnie niebezpieczne może być wdrożenie źle zaprojektowanej automatyzacji w sektorach krytycznych, takich jak finanse, prawo czy medycyna. Dodatkowo, w dobie rosnących kosztów infrastruktury chmurowej, świadomość, że dodanie kolejnych agentów do zadania sekwencyjnego tylko obniża jego skuteczność, jest na wagę złota. Pozwala to zaoszczędzić firmom miliony dolarów na niepotrzebnych, "pustych" zapytaniach do API, które w rzeczywistości jedynie spowalniają proces. Rynek dojrzewa – od teraz inżynierowie AI muszą skupić się na matematycznym, precyzyjnym dopasowaniu struktury i narzędzi do charakterystyki samego problemu biznesowego.

Co dalej?

Koniec projektowania "na oślep": Zbudowany w badaniu model predykcyjny (R2=0.513) pozwala inżynierom przewidzieć optymalną architekturę dla konkretnego zadania bez konieczności kosztownego testowania. Narzędzia tego typu wkrótce staną się standardem w platformach deweloperskich.
Wąskie gardła narzędziowe: Rynek zacznie mocniej optymalizować tzw. koordynację narzędzi, ponieważ badanie wykazało, że przy konieczności obsługi wielu zewnętrznych wtyczek (np. 16+ narzędzi programistycznych), koszt współpracy agentów przestaje rosnąć proporcjonalnie i staje się nieefektywny.
Wzrost znaczenia ról i hierarchii: Będziemy świadkami odchodzenia od płaskich, całkowicie autonomicznych struktur (agenty niezależne) na rzecz rygorystycznych, zhierarchizowanych architektur hybrydowych z wbudowanymi modelami weryfikacyjnymi.

Źródło: Opracowanie własne na podstawie dokumentacji badawczej Google DeepMind ("Towards a Science of Scaling Agent Systems" - ArXiv: 2512.08296)