Agenci AI generują awarie, których enterprise nie śledzi

W produkcyjnych systemach enterprise pojawia się kategoria awarii, której zespoły inżynierskie jeszcze nie klasyfikują. Agent AI wykrył anomalię, podjął technicznie poprawną akcję, kontekst był niekompletny, infrastruktura posypała się kaskadowo — a postmortem zakończył się kłótnią trzech zespołów o to, czyja to wina. Ani agenci, ani chaos engineering (kontrolowane wstrzykiwanie awarii do produkcji w celu weryfikacji odporności systemu), lecz przestrzeń między nimi generuje następną falę poważnych incydentów produkcyjnych.

Najważniejsze w skrócie

79% organizacji ma agentów AI w produkcji, 96% planuje rozszerzenie wdrożeń (PwC 2026)
Gartner: 40% projektów agentic AI zostanie anulowanych do 2027 roku z powodu słabej kontroli ryzyka
Incydenty AI wzrosły o 21% między 2024 a 2025 rokiem według AI Incidents Database
Agenci remediacyjni działają jak eksperymenty chaos engineering — ale bez SLO burn rate check, bez kalkulacji blast radius, bez człowieka w pętli
Autorka proponuje model „resilience budget" — współdzielony zasób absorb capacity aktualizowany w czasie rzeczywistym przez eksperymenty i akcje agentów

Ocena, której agenci nie robią

W dojrzałych organizacjach chaos engineering to ustrukturyzowany proces: inżynier sprawdza dashboardy, patrzy na burn rate błędów, ocenia stabilność zależności — i dopiero wtedy decyduje, czy teraz jest właściwy moment na wstrzyknięcie awarii. To osąd ludzki, niedoskonały i intuicyjny, ale zawiera jedno kluczowe pytanie: czy system ma teraz zdolność absorbowania dodatkowego stresu?

Gdy do systemu wchodzi autonomiczny agent remediacyjny (system AI naprawiający incydenty bez udziału człowieka) — zdolny do restartu serwisów, rerouting ruchu, skalowania zasobów — to pytanie znika. Agent widzi anomalię, podejmuje akcję. Akcja jest zdarzeniem chaos engineering. Bez sprawdzenia SLO burn rate (tempa wyczerpywania budżetu błędów zdefiniowanego w umowach SLO). Bez kalkulacji blast radius (zasięgu systemowego konsekwencji tej akcji). Bez ludzkiego osądu o tym, czy akurat teraz to dobry moment.

Konkretny wzorzec awarii

Sayali Patil, autorka analizy (wcześniej Cisco i Splunk, autorka patentu na metodologię intent-based chaos engineering), opisuje typowy scenariusz: agent remediacyjny wykrywa podwyższone opóźnienie na mikroserwisie i restartuje klaster — to racjonalna akcja biorąc pod uwagę dane treningowe. Czego agent nie wie: trzy inne serwisy obsługują szczytowy ruch, współdzielona pula połączeń jest na poziomie 87%, zależna baza danych wykonuje w tle przebudowę indeksu. Restart wywołuje efekt thundering herd na odbudowującym się serwisie.

Wynikowy blast radius nie obejmuje samego restartu serwisu. Obejmuje wszystko downstream od tego restartu, w stanie systemu, którego agent nigdy nie miał pełnego obrazu. Żaden program chaos engineering nie testował tej konkretnej kombinacji. Żadna kalkulacja blast radius nie uwzględniała agenta jako aktora.

Resilience budget jako rozwiązanie

Na podstawie badań z praktykami SRE i platform engineering z organizacji takich jak Intuit i GPTZero, Patil zaproponowała model resilience budget — zdolności absorbowania traktowanej nie jako statyczny próg, lecz jako zasób konsumowany w czasie rzeczywistym. Każda akcja agenta i każdy eksperyment chaos engineering uszczuplają ten zasób. W organizacjach wielozespołowych budget jest współdzielony.

Model opiera się na czterech klasach sygnałów: SLO burn rate (podstawowy sygnał — bezpośrednio koduje odległość od podjętych zobowiązań), trend P99 latency (ważniejszy niż bezwzględna wartość), saturacja zależności (najczęściej pomijany sygnał — pula połączeń na 87% to inny kontekst niż 30%) oraz sygnały behawioralne aplikacji (wskaźniki ukończenia sesji, zmiany wzorców API, degradacja konwersji — widoczne wcześniej niż metryki infrastrukturalne).

LLM do generowania hipotez, nie do decyzji wykonawczych

Kilka organizacji testuje już modele językowe do generowania hipotez chaos engineering z grafów zależności i historii postmortem. Wyniki są obiecujące: LLM identyfikują wartościowe scenariusze awarii szybciej niż procesy manualne. Twardy limit to aktualność grafu zależności. Model nie wie, że miesiąc temu wyodrębniono serwis lub dwa sprinty temu dodano nową bibliotekę współdzieloną. Będzie pewnie błędny w oszacowaniu blast radius na nieistniejącej już granicy systemowej.

Stanford Trustworthy AI Research Lab potwierdza: guardrails na poziomie modelu były omijane w większości testowanych przypadków w atakach fine-tuningowych. Model, który nie może utrzymać własnych granic bezpieczeństwa, nie powinien być ufany w modelowaniu blast radius akcji, których nigdy nie widział w niezweryfikowanym grafie zależności.

Dlaczego to ważne?

Analiza Patil otwiera ważną lukę koncepcyjną: branża wdrożyła agentów remediacyjnych do infrastruktury bez rozszerzenia modeli zarządzania ryzykiem, które dotąd obejmowały wyłącznie ludzkich inżynierów. Efekt jest analogiczny do zainstalowania w samochodzie autopilota bez aktualizacji systemu ABS, żeby wiedział, że są teraz dwa kierowcy. Dane są alarmujące: 79% wdrożeń z agentami w produkcji, 21% wzrost incydentów AI rok do roku, a jednocześnie brak standardowych szablonów postmortem uwzględniających agenta jako aktora inicjującego kaskadę. To nie problem przyszłości — to problem teraźniejszości, który większość organizacji klasyfikuje pod mylnymi etykietami technicznymi. Rozwiązanie nie wymaga rewolucji architektonicznej. Wymaga podłączenia agentów do tej samej warstwy sygnałów live, która już teraz rządzi eksperymentami chaos engineering.

Co dalej?

Autorka rekomenduje audyt każdego agenta dotykającego infrastruktury: mapowanie jego action surface na live SLO burn rate i zdefiniowanie floor conditions, poniżej których agent musi czekać lub eskalować
Gartner prognozuje 33% enterprise software z agentic AI do 2028 — bez governance layer dla resilience budget ta skala oznacza proporcjonalny wzrost niewidocznych incydentów
AI Incidents Database planuje rozszerzenie klasyfikacji o akcje agentów jako inicjatorów kaskad — co ułatwi porównywalne benchmarking bezpieczeństwa systemów agentic