Bezpieczeństwo agentów AI — ataki, jailbreak i obrona · System Prompt Security i ekstrakcja danych

Training data extraction i granice model inversion

System Prompt Security i ekstrakcja danych

Wprowadzenie

Modele językowe nie tylko "wiedzą" — one "pamiętają". Carlini et al. (2021) pokazali że z GPT-2 można wydobyć dosłowne fragmenty danych treningowych, w tym dane osobowe. Ta lekcja omawia dwa powiązane obszary: training data extraction — jak atakujący mogą odtworzyć konkretne dane z modelu przez odpowiednio sformułowane zapytania, oraz model inversion — jak rekonstruować właściwości danych wejściowych na podstawie outputów modelu. Analizujemy też granice tych ataków, metryki memoryzacji i techniki obrony oparte na differential privacy.