Bezpieczeństwo agentów AI — ataki, jailbreak i obrona · Red Teaming, monitoring i bezpieczny design systemu agentowego
Automatyzacja red teamingu: garak, PyRIT, PAIR — przegląd narzędzi
Red Teaming, monitoring i bezpieczny design systemu agentowego
Wprowadzenie
Automatyzacja red teamingu LLM pozwala na systematyczne, skalowalne testy bezpieczeństwa bez manualnego pisania każdego promptu atakującego. Lekcja omawia trzy kluczowe narzędzia: garak (open-source LLM vulnerability scanner), PyRIT (Python Risk Identification Toolkit od Microsoft) oraz PAIR (Prompt Automatic Iterative Refinement — algorytm automatycznego poszukiwania jailbreak), a także zasady doboru narzędzia do scenariusza.