Bezpieczeństwo agentów AI — ataki, jailbreak i obrona · Jak działa atak na agenta AI — model mentalny i mapa zagrożeń

Direct attacker vs indirect attacker — fundamentalna różnica

Jak działa atak na agenta AI — model mentalny i mapa zagrożeń

Wprowadzenie

Rozróżnienie między bezpośrednim a pośrednim atakującym to jeden z najważniejszych podziałów w security agentów AI. Direct attacker wchodzi w bezpośrednią interakcję z modelem jako użytkownik — może korzystać z user turn, ale jest widoczny i podlega rate limiting. Indirect attacker nigdy nie dotyka interfejsu agenta — zamiast tego kontroluje dane ze środowiska, które agent konsumuje (strony www, dokumenty, odpowiedzi API, emaile). Ta lekcja analizuje mechanizmy, wektory, skuteczność i defense dla każdego z tych dwóch archetypów ataku.