Bezpieczeństwo agentów AI — ataki, jailbreak i obrona · Jailbreaking — kiedy i dlaczego safety alignment zawodzi
Dwa failure modes safety trainingu: competing objectives i mismatched generalization
Jailbreaking — kiedy i dlaczego safety alignment zawodzi
Wprowadzenie
Safety alignment modeli językowych opiera się na RLHF i SFT, które uczą model odmawiać szkodliwych próśb. Jednak trening ten ma dwa fundamentalne słabe punkty: competing objectives (cel bycia pomocnym konkuruje z celem bycia bezpiecznym) oraz mismatched generalization (model uczy się bezpieczeństwa na dystrybucji treningowej, ale jailbreaki wychodzą poza nią). Lekcja rozkłada oba mechanizmy, pokazuje konkretne eksperymenty i implikacje dla projektowania systemów AI.