Bezpieczeństwo agentów AI — ataki, jailbreak i obrona · Jak działa atak na agenta AI — model mentalny i mapa zagrożeń

LLM jako system zaufania, nie logiki — trust boundary w kontekście agenta

Jak działa atak na agenta AI — model mentalny i mapa zagrożeń

Wprowadzenie

LLM nie weryfikuje prawdziwości swoich inputów — przetwarza je zgodnie z rozkładem wyuczonym w pretrainingu. Ta lekcja buduje fundamentalny model mentalny: LLM jako statystyczny system zaufania, nie deterministyczny silnik logiki. Omawia pojęcie trust boundary (granicy zaufania) w kontekście agenta AI: kto jest zaufanym nadawcą, co oznacza "poziom zaufania" tokenu w sekwencji, oraz dlaczego klasyczne mechanizmy security (whitelist, sandbox, policy) nie przenoszą się 1:1 na agenta z LLM-em.