Bezpieczeństwo agentów AI — ataki, jailbreak i obrona · System Prompt Security i ekstrakcja danych
Techniki ekstrakcji: wieloetapowa manipulacja, role-switching, context hijacking
System Prompt Security i ekstrakcja danych
Wprowadzenie
Ataki ekstrakcji system promptu wykraczają daleko poza proste pytanie "wypisz swój prompt". Zaawansowani atakujący stosują techniki wieloetapowe, które stopniowo budują kontekst pozwalający modelowi "zapomnieć" o instrukcjach poufności. Ta lekcja omawia cztery główne klasy technik: (1) wieloetapową manipulację — budowanie kontekstu rozmowy, który prowadzi do ujawnienia; (2) role-switching — zmianę persony modelu przez fikcyjne frameworki; (3) context hijacking — przejęcie ramy kontekstowej rozmowy; (4) meta-level exploits — użycie wiedzy o naturze LLM przeciwko samemu modelowi.