Bezpieczeństwo agentów AI — ataki, jailbreak i obrona · Red Teaming, monitoring i bezpieczny design systemu agentowego

Automatyzacja red teamingu: garak, PyRIT, PAIR — przegląd narzędzi

Red Teaming, monitoring i bezpieczny design systemu agentowego

Wprowadzenie

Automatyzacja red teamingu LLM pozwala na systematyczne, skalowalne testy bezpieczeństwa bez manualnego pisania każdego promptu atakującego. Lekcja omawia trzy kluczowe narzędzia: garak (open-source LLM vulnerability scanner), PyRIT (Python Risk Identification Toolkit od Microsoft) oraz PAIR (Prompt Automatic Iterative Refinement — algorytm automatycznego poszukiwania jailbreak), a także zasady doboru narzędzia do scenariusza.