Bezpieczeństwo agentów AI — ataki, jailbreak i obrona · System Prompt Security i ekstrakcja danych

Techniki ekstrakcji: wieloetapowa manipulacja, role-switching, context hijacking

System Prompt Security i ekstrakcja danych

Wprowadzenie

Ataki ekstrakcji system promptu wykraczają daleko poza proste pytanie "wypisz swój prompt". Zaawansowani atakujący stosują techniki wieloetapowe, które stopniowo budują kontekst pozwalający modelowi "zapomnieć" o instrukcjach poufności. Ta lekcja omawia cztery główne klasy technik: (1) wieloetapową manipulację — budowanie kontekstu rozmowy, który prowadzi do ujawnienia; (2) role-switching — zmianę persony modelu przez fikcyjne frameworki; (3) context hijacking — przejęcie ramy kontekstowej rozmowy; (4) meta-level exploits — użycie wiedzy o naturze LLM przeciwko samemu modelowi.