Bezpieczeństwo agentów AI — ataki, jailbreak i obrona · Prompt Injection — od atomowego exploitu do wieloetapowego ataku

Indirect prompt injection: gdy dane są instrukcją — RAG, dokumenty, emaile, web scrape

Prompt Injection — od atomowego exploitu do wieloetapowego ataku

Wprowadzenie

Indirect prompt injection (IPI) to atak, w którym złośliwa instrukcja nie pochodzi od użytkownika, lecz jest osadzona w danych zewnętrznych przetwarzanych przez model — dokumentach, emailach, stronach www, wynikach wyszukiwania, fragmentach RAG. Model pobiera te dane jako "kontekst", lecz w rzeczywistości wykonuje ukrytą instrukcję atakującego. Ta lekcja analizuje mechanizm IPI w systemach RAG, email/kalendarz agentach, web-scraping pipeline'ach i narzędziach do analizy dokumentów (Greshake et al. 2023, "Not What You've Signed Up For").