Bezpieczeństwo agentów AI — ataki, jailbreak i obrona · Jailbreaking — kiedy i dlaczego safety alignment zawodzi

Jailbreak vs prompt injection — gdzie kończy się odpowiedzialność modelu, gdzie zaczyna się aplikacji

Jailbreaking — kiedy i dlaczego safety alignment zawodzi

Wprowadzenie

Jailbreak i prompt injection to dwie różne klasy ataków z różnymi granicami odpowiedzialności: jailbreak to atak na politykę safety modelu przez użytkownika, prompt injection to wstrzyknięcie instrukcji z zewnętrznych danych przetwarzanych przez agenta. Lekcja precyzuje tę granicę, analizuje bezpośredni i pośredni prompt injection w systemach agentowych, odpowiedzialność operatora vs modelu i implikacje dla projektowania pipeline'ów AI.