Bezpieczeństwo agentów AI — ataki, jailbreak i obrona · Prompt Injection — od atomowego exploitu do wieloetapowego ataku
SpAIware: persistent injection przez pamięć agenta (ChatGPT memories case)
Prompt Injection — od atomowego exploitu do wieloetapowego ataku
Wprowadzenie
SpAIware (termin Johanna Rehbergera, 2024) to klasa ataków, w których złośliwa instrukcja osadzana jest TRWALE w systemie przez mechanizm pamięci agenta — tak jak spyware infekuje system operacyjny, SpAIware infekuje kontekst agenta. Najpopularniejszym udokumentowanym przypadkiem jest podatność ChatGPT Memories (Rehberger 2024): IPI w złośliwym dokumencie lub stronie www zapisywała fałszywe instrukcje do pamięci użytkownika, wpływając na wszystkie przyszłe sesje. Lekcja analizuje mechanizm, wektor, demonstrację i mitygacje SpAIware.