Bezpieczeństwo agentów AI — ataki, jailbreak i obrona · System Prompt Security i ekstrakcja danych

Sensitive information disclosure: PII, API keys, internal configs w outputach LLM

System Prompt Security i ekstrakcja danych

Wprowadzenie

LLM może ujawniać dane poufne nie tylko przez ekstrakcję system promptu, ale też przez odpowiedzi na pozornie niewinne pytania — gdy model ma dostęp do danych użytkownika, baz wiedzy lub narzędzi. Ta lekcja omawia trzy główne kategorie ujawnień: PII (dane osobowe użytkowników), klucze API i dane uwierzytelniające, oraz wewnętrzne konfiguracje systemu. Analizujemy mechanizmy, przez które LLM "przecieka" te dane, oraz realne konsekwencje prawne (GDPR, CCPA) i bezpieczeństwa takich wycieków.