Bezpieczeństwo agentów AI — ataki, jailbreak i obrona · Prompt Injection — od atomowego exploitu do wieloetapowego ataku

Wieloetapowe i opóźnione ataki: context pollution i C2 via LLM

Prompt Injection — od atomowego exploitu do wieloetapowego ataku

Wprowadzenie

Wieloetapowe ataki prompt injection to scenariusze, w których złośliwa instrukcja nie wykonuje się od razu, lecz stopniowo infekuje kontekst agenta (context pollution) lub ustanawia kanał command-and-control (C2) przez sam model językowy. Lekcja analizuje architekturę takich ataków: jak atakujący może "zasadzić" instrukcję kilka kroków przed jej wykonaniem, jak LLM może być użyty jako pośrednik C2 omijający tradycyjne filtry sieciowe, i dlaczego wieloetapowość drastycznie utrudnia detekcję i atrybucję ataku.