Bezpieczeństwo agentów AI — ataki, jailbreak i obrona · Jailbreaking — kiedy i dlaczego safety alignment zawodzi

Many-shot jailbreaking i prompt dilution — skalowalne ataki bez gradientów

Jailbreaking — kiedy i dlaczego safety alignment zawodzi

Wprowadzenie

Many-shot jailbreaking to klasa ataków eksploatująca in-context learning w modelach z długim kontekstem — zamiast modyfikować architekturę modelu lub stosować gradient, attacker wypełnia kontekst setkami przykładów "posłusznych odpowiedzi", zmuszając model do ekstrapolacji wzorca. Prompt dilution osłabia sygnał safety przez rozmycie treści szkodliwej w morzu innocuous content. Lekcja analizuje mechanizmy, skalowanie i implikacje dla deploymentu.