Bezpieczeństwo agentów AI — ataki, jailbreak i obrona · Bezpieczeństwo agentów z narzędziami i MCP

MCP security: tool poisoning, confused deputy i rug-pull w Model Context Protocol

Bezpieczeństwo agentów z narzędziami i MCP

Wprowadzenie

Model Context Protocol (MCP) to otwarty standard (Anthropic, 2024) standaryzujący sposób łączenia agentów AI z zewnętrznymi narzędziami i zasobami. Standaryzacja przynosi korzyści ekosystemowe, ale wprowadza nowe wektory ataku specyficzne dla protokołu: tool poisoning (manipulacja opisem narzędzia), confused deputy (narzędzie działające w imieniu niewłaściwego pryncypała), i rug-pull (podmiana narzędzia po instalacji). Lekcja analizuje każdy atak mechanistycznie i omawia ochronę.