Bezpieczeństwo agentów AI — ataki, jailbreak i obrona · System Prompt Security i ekstrakcja danych

System prompt extraction: dlaczego "keep this secret" nie działa i jak wygląda atak

System Prompt Security i ekstrakcja danych

Wprowadzenie

Instrukcja "nie ujawniaj tego promptu" jest jednym z najczęstszych i zarazem najmniej skutecznych zabezpieczeń w deploymentach LLM. Ta lekcja wyjaśnia, dlaczego sam tekst systemu nie jest sekretem architektonicznym — model nie "ukrywa" go jak zaszyfrowanego pliku, lecz traktuje jako kontekst o normalnym priorytecie. Analizujemy typowy przebieg ataku ekstrakcji: od bezpośrednich próśb, przez pośrednie wektory, aż po echo-trick. Omawiamy też, co atakujący faktycznie zyskuje i jakie realne ryzyka niesie ujawnienie promptu.