Bezpieczeństwo agentów AI — ataki, jailbreak i obrona · Jak działa atak na agenta AI — model mentalny i mapa zagrożeń

Architektura agenta jako powierzchnia ataku: LLM + tools + memory + orchestrator

Jak działa atak na agenta AI — model mentalny i mapa zagrożeń

Wprowadzenie

Agent AI to nie tylko model językowy — to system czterech wzajemnie powiązanych komponentów: LLM (rdzeń decyzyjny), narzędzia (tools, zdolność do działania w świecie), pamięć (kontekst krótko- i długoterminowy) oraz orchestrator (kod koordynujący przepływ). Każdy komponent jest osobną powierzchnią ataku z własną klasą zagrożeń. Ta lekcja systematycznie mapuje, co można zaatakować w każdym z nich, jak komponenty oddziałują na siebie (atak na jeden komponent może zkompromitować pozostałe) oraz jakie są implikacje dla projektowania odpornych agentów.