Bezpieczeństwo agentów AI — ataki, jailbreak i obrona · System Prompt Security i ekstrakcja danych
System prompt hardening: co działa, co nie — wielowarstwowe podejście do ochrony
System Prompt Security i ekstrakcja danych
Wprowadzenie
Poprzednie lekcje pokazały dlaczego żadna pojedyncza technika ochrony system promptu nie jest wystarczająca. Ta lekcja syntetyzuje obraną wiedzę w praktyczne podejście do hardeningu: od technik na poziomie promptu (co pisać, czego nie pisać, jak definiować tożsamość modelu), przez kontrole aplikacyjne (guardrails, output filtering, rate limiting), po architekturalne zasady minimalizacji ryzyka (assume breach, least privilege, defense in depth). Omawiamy też co NIE działa, żeby unikać security theater.