Agentic AIŚredniozaawansowany

Bezpieczeństwo agentów AI — ataki, jailbreak i obrona

7 Rozdziałów39 Lekcji

Kurs obejmuje trzy warstwy bezpieczeństwa systemów agentowych: (1) taksonomię ataków — prompt injection bezpośredni i pośredni, jailbreaking technikami tanimi jak DAN i roleplay, model inversion oraz data extraction; (2) mechanizmy obrony — input/output sanitization, instruction hierarchy, sandboxing narzędzi agenta, system prompts hardening oraz AI firewall jako zewnętrzna warstwa filtracji; (3) projektowanie bezpiecznych systemów multi-agent — izolacja uprawnień, least-privilege tool access, auditing i monitoring anomalii w czasie rzeczywistym. Prerequisity: znajomość API LLM (OpenAI/Anthropic), doświadczenie w budowie co najmniej jednego systemu z agentem AI lub chatbotem produkcyjnym. Kurs NIE pokrywa: kryptografii, bezpieczeństwa infrastruktury sieciowej, compliance i regulacji (GDPR/AI Act) ani adversarial ML (ataki na wagi modeli). Absolwent kursu potrafi ocenić powierzchnię ataku własnego systemu agentowego, zastosować gotowe wzorce obrony i świadomie dobierać kompromisy między bezpieczeństwem a użytecznością agenta.

Rozdziały

MODUŁ 01

Jak działa atak na agenta AI — model mentalny i mapa zagrożeń

0 / 5 · 0%

Rozdział buduje fundamentalny model mentalny atakującego agenta AI: od granic zaufania LLM, przez anatomię powierzchni ataku (LLM, tools, memory, orchestrator), po taksonomię OWASP GenAI Top 10:2025 i praktyczny threat modeling canvas.

MODUŁ 02

Prompt Injection — od atomowego exploitu do wieloetapowego ataku

0 / 6 · 0%

Rozdział omawia anatomię ataków prompt injection: od bezpośrednich i pośrednich wektorów, przez techniki niewidocznych wstrzyknięć, wieloetapowe scenariusze C2, trwałe infekcje przez pamięć agenta, aż po praktyczny scenariusz przeprowadzenia ataku na agenta z tool calling.

MODUŁ 03

Jailbreaking — kiedy i dlaczego safety alignment zawodzi

0 / 5 · 0%

Rozdział analizuje mechanizmy zawodności safety alignmentu: od competing objectives i mismatched generalization, przez taksonomię technik jailbreak, many-shot ataki skalowalne bez gradientów, rozróżnienie jailbreak od prompt injection, po obrony po stronie aplikacji — self-reminder, instruction hierarchy i Constitutional AI.

MODUŁ 04

System Prompt Security i ekstrakcja danych

0 / 5 · 0%

Rozdział o atakach na system prompt i wyciekach danych z LLM: ekstrakcja promptu, manipulacja wieloetapowa, ujawnianie PII i kluczy API, training data extraction oraz wielowarstwowa ochrona systemu promptu.

MODUŁ 05

Bezpieczeństwo agentów z narzędziami i MCP

0 / 6 · 0%

Rozdział omawia zagrożenia i mechanizmy ochrony agentów AI wyposażonych w narzędzia: nadmierne uprawnienia (OWASP LLM06), bezpieczeństwo protokołu MCP, eskalację uprawnień w systemach multi-agent, konfigurację human-in-the-loop oraz praktyczny audit trail.

MODUŁ 06

Guardrails i AI Firewall — obrona wielowarstwowa

0 / 6 · 0%

Rozdział omawia architekturę defense-in-depth dla systemów AI: od filtrów input/output, przez narzędzia Llama Guard, NeMo i Guardrails AI, wzorzec Dual LLM, sandboxing agentów, po dynamiczną adaptację guardrails wobec ewoluujących ataków.

MODUŁ 07

Red Teaming, monitoring i bezpieczny design systemu agentowego

0 / 6 · 0%

Rozdział obejmuje pełny cykl ofensywno-obronny: od planowania i automatyzacji red teamingu LLM, przez budowę security evals w CI/CD i runtime monitoring, po bezpieczny design checklist dla systemów agentowych i końcowy scenariusz oceny bezpieczeństwa.