Bezpieczeństwo agentów AI — ataki, jailbreak i obrona · Prompt Injection — od atomowego exploitu do wieloetapowego ataku

Direct prompt injection: anatomia ataku — "ignore previous instructions" i warianty

Prompt Injection — od atomowego exploitu do wieloetapowego ataku

Wprowadzenie

Direct prompt injection (DPI) to atak, w którym napastnik kontroluje bezpośredni wkład do modelu językowego i przy użyciu sprytnie skonstruowanej instrukcji zmusza go do zignorowania systemu promptu, zmiany roli lub wycieku poufnych danych. Ta lekcja rozkłada na czynniki pierwsze klasyczne wzorce DPI — od historycznego "ignore previous instructions" (Riley Goodside, 2022) przez role injection (DAN, STAN, warianty jailbreak), ataki separatorami, prompt leaking, wrapping attacks aż po gradienty adversarialne (Zou et al. 2023). Poznasz dlaczego alignment i instrukcje systemowe nie są tożsame z bezpieczeństwem, i jakie mitygacje mają znaczenie.