Bezpieczeństwo agentów AI — ataki, jailbreak i obrona · Jailbreaking — kiedy i dlaczego safety alignment zawodzi

Dwa failure modes safety trainingu: competing objectives i mismatched generalization

Jailbreaking — kiedy i dlaczego safety alignment zawodzi

Wprowadzenie

Safety alignment modeli językowych opiera się na RLHF i SFT, które uczą model odmawiać szkodliwych próśb. Jednak trening ten ma dwa fundamentalne słabe punkty: competing objectives (cel bycia pomocnym konkuruje z celem bycia bezpiecznym) oraz mismatched generalization (model uczy się bezpieczeństwa na dystrybucji treningowej, ale jailbreaki wychodzą poza nią). Lekcja rozkłada oba mechanizmy, pokazuje konkretne eksperymenty i implikacje dla projektowania systemów AI.