Bezpieczeństwo agentów AI — ataki, jailbreak i obrona · System Prompt Security i ekstrakcja danych
Training data extraction i granice model inversion
System Prompt Security i ekstrakcja danych
Wprowadzenie
Modele językowe nie tylko "wiedzą" — one "pamiętają". Carlini et al. (2021) pokazali że z GPT-2 można wydobyć dosłowne fragmenty danych treningowych, w tym dane osobowe. Ta lekcja omawia dwa powiązane obszary: training data extraction — jak atakujący mogą odtworzyć konkretne dane z modelu przez odpowiednio sformułowane zapytania, oraz model inversion — jak rekonstruować właściwości danych wejściowych na podstawie outputów modelu. Analizujemy też granice tych ataków, metryki memoryzacji i techniki obrony oparte na differential privacy.