Bezpieczeństwo agentów AI — ataki, jailbreak i obrona · Jailbreaking — kiedy i dlaczego safety alignment zawodzi
Jailbreak vs prompt injection — gdzie kończy się odpowiedzialność modelu, gdzie zaczyna się aplikacji
Jailbreaking — kiedy i dlaczego safety alignment zawodzi
Wprowadzenie
Jailbreak i prompt injection to dwie różne klasy ataków z różnymi granicami odpowiedzialności: jailbreak to atak na politykę safety modelu przez użytkownika, prompt injection to wstrzyknięcie instrukcji z zewnętrznych danych przetwarzanych przez agenta. Lekcja precyzuje tę granicę, analizuje bezpośredni i pośredni prompt injection w systemach agentowych, odpowiedzialność operatora vs modelu i implikacje dla projektowania pipeline'ów AI.