Google opublikował raport ostrzegający przed nowym wektorem ataku na agentów AI. Złośliwe treści ukryte na stronach internetowych mogą przejąć kontrolę nad działaniami agenta bez wiedzy użytkownika. Zjawisko to określane jest mianem pośredniego wstrzyknięcia poleceń (indirect prompt injection).
Na czym polega atak?
Agenci AI coraz częściej przeglądają internet w imieniu użytkownika — rezerwują hotele, zbierają dane, wypełniają formularze. Każda odwiedzana strona może zawierać ukryte polecenia tekstowe, niewidoczne dla człowieka, ale odczytywane przez model językowy. Jeśli agent nie potrafi odróżnić poleceń użytkownika od treści strony, może zostać zmuszony do wykonania działań sprzecznych z intencją użytkownika.
Przykładowe scenariusze ataków obejmują: ukryty tekst nakazujący agentowi przesłanie danych logowania na zewnętrzny serwer, polecenia zmieniające cel rezerwacji lub zakupu, instrukcje blokujące agenta przed powiadomieniem użytkownika o wykonanych działaniach.
Co mówi raport Google?
Raport Google Threat Intelligence Group klasyfikuje pośrednie wstrzyknięcia poleceń jako realne zagrożenie operacyjne, nie tylko teoretyczne. Autorzy wskazują, że skala problemu rośnie wprost proporcjonalnie do wzrostu liczby wdrożonych agentów. Google wyróżnia trzy klasy ataków: data exfiltration (kradzież danych przetwarzanych przez agenta), action hijacking (przejęcie działań agenta) oraz persistence injection (wstrzyknięcie poleceń, które przetrwają wiele sesji agenta).
Dlaczego to trudny problem do rozwiązania?
Problem wynika z fundamentalnej architektury dużych modeli językowych. LLM przetwarza tekst jako ciągły strumień tokenów — nie rozróżnia z natury, czy dany fragment pochodzi od użytkownika, od systemu, czy z zewnętrznej strony. Próby separacji kontekstu przez system prompts i narzędzia takie jak sandboxing poprawiają sytuację, ale nie eliminują ryzyka. Google sugeruje podejście wielowarstwowe: izolację kontekstu, monitoring działań agenta w czasie rzeczywistym oraz autoryzację krytycznych działań przez użytkownika.
Kto jest najbardziej narażony?
Najbardziej narażone są systemy agentowe z szerokim dostępem do internetu i niskoprogową autonomią działania. W szczególności: asystenci zakupowi i rezerwacyjni, agenci do automatyzacji zadań biurowych, systemy wieloagentowe, w których jeden zainfekowany agent może przekazać złośliwe polecenia kolejnym.
Reakcja branży
OpenAI i Anthropic również dokumentują ten wektor ataku w swoich materiałach bezpieczeństwa. OWASP (Open Web Application Security Project) umieścił prompt injection na pierwszym miejscu swojej listy zagrożeń dla aplikacji LLM. Mimo rosnącej świadomości brakuje jeszcze standaryzowanych mechanizmów obrony — każdy dostawca modeli stosuje własne podejście.
Dlaczego to ważne dla robotyki i automatyzacji?
Roboty i systemy automatyzacji coraz częściej korzystają z agentów AI do planowania zadań i interpretacji środowiska. Jeśli agent sterujący ramieniem robotycznym lub systemem logistycznym może zostać przejęty przez złośliwą treść z sieci, konsekwencje wychodzą poza cyfrowy świat. Bezpieczeństwo agentów AI staje się w tym kontekście zagadnieniem z pogranicza cyberbezpieczeństwa i bezpieczeństwa fizycznego.
Co dalej?
Google zapowiada rozbudowę narzędzi detekcji w ramach Google Cloud Security. Branża oczekuje na standardy techniczne od organizacji takich jak NIST i OWASP. Tymczasem firmy wdrażające agentów AI powinny audytować zakresy uprawnień agentów i wprowadzać obowiązkowe potwierdzenia dla działań o wysokim ryzyku.
Źródła
- AI News / TechForge – Google warns malicious web pages poisoning AI agents - https://www.artificialintelligence-news.com/news/google-warns-malicious-web-pages-poisoning-ai-agents/
- Google Cloud Security Threat Intelligence - https://cloud.google.com/security/products/threat-intelligence





