Bezpieczeństwo agentów AI — ataki, jailbreak i obrona · Jailbreaking — kiedy i dlaczego safety alignment zawodzi

Taksonomia jailbreaków: roleplay/persona, prefix injection, refusal suppression, cipher tricks

Jailbreaking — kiedy i dlaczego safety alignment zawodzi

Wprowadzenie

Jailbreaki nie są jednorodne — dzielą się na kilka klas technicznych, z których każda eksploatuje inny mechanizm. Roleplay i persona attacks nadużywają celu helpfulness, prefix injection wymusza format odpowiedzi, refusal suppression wstrzykuje instrukcje blokujące odmowę, a cipher tricks tworzą dystrybucję tokenów poza coverage safety. Lekcja systematyzuje tę taksonomię, opisuje mechanizm i skuteczność każdej klasy na konkretnych przykładach.