Bezpieczeństwo agentów AI — ataki, jailbreak i obrona · Prompt Injection — od atomowego exploitu do wieloetapowego ataku

SpAIware: persistent injection przez pamięć agenta (ChatGPT memories case)

Prompt Injection — od atomowego exploitu do wieloetapowego ataku

Wprowadzenie

SpAIware (termin Johanna Rehbergera, 2024) to klasa ataków, w których złośliwa instrukcja osadzana jest TRWALE w systemie przez mechanizm pamięci agenta — tak jak spyware infekuje system operacyjny, SpAIware infekuje kontekst agenta. Najpopularniejszym udokumentowanym przypadkiem jest podatność ChatGPT Memories (Rehberger 2024): IPI w złośliwym dokumencie lub stronie www zapisywała fałszywe instrukcje do pamięci użytkownika, wpływając na wszystkie przyszłe sesje. Lekcja analizuje mechanizm, wektor, demonstrację i mitygacje SpAIware.