
Agentic AIŚredniozaawansowany
Bezpieczeństwo agentów AI — ataki, jailbreak i obrona
Kurs obejmuje trzy warstwy bezpieczeństwa systemów agentowych: (1) taksonomię ataków — prompt injection bezpośredni i pośredni, jailbreaking technikami tanimi jak DAN i roleplay, model inversion oraz data extraction; (2) mechanizmy obrony — input/output sanitization, instruction hierarchy, sandboxing narzędzi agenta, system prompts hardening oraz AI firewall jako zewnętrzna warstwa filtracji; (3) projektowanie bezpiecznych systemów multi-agent — izolacja uprawnień, least-privilege tool access, auditing i monitoring anomalii w czasie rzeczywistym. Prerequisity: znajomość API LLM (OpenAI/Anthropic), doświadczenie w budowie co najmniej jednego systemu z agentem AI lub chatbotem produkcyjnym. Kurs NIE pokrywa: kryptografii, bezpieczeństwa infrastruktury sieciowej, compliance i regulacji (GDPR/AI Act) ani adversarial ML (ataki na wagi modeli). Absolwent kursu potrafi ocenić powierzchnię ataku własnego systemu agentowego, zastosować gotowe wzorce obrony i świadomie dobierać kompromisy między bezpieczeństwem a użytecznością agenta.
Rozdziały
MODUŁ 01Jak działa atak na agenta AI — model mentalny i mapa zagrożeń
Rozdział buduje fundamentalny model mentalny atakującego agenta AI: od granic zaufania LLM, przez anatomię powierzchni ataku (LLM, tools, memory, orchestrator), po taksonomię OWASP GenAI Top 10:2025 i praktyczny threat modeling canvas.
Jak działa atak na agenta AI — model mentalny i mapa zagrożeń
- 1.1LLM jako system zaufania, nie logiki — trust boundary w kontekście agenta
- 1.2Architektura agenta jako powierzchnia ataku: LLM + tools + memory + orchestrator
- 1.3Direct attacker vs indirect attacker — fundamentalna różnica
- 1.4OWASP GenAI Top 10:2025 — mapa zagrożeń jako przewodnik kursu
- 1.5Threat modeling canvas dla agenta z narzędziami — ćwiczenie praktyczne
MODUŁ 02Prompt Injection — od atomowego exploitu do wieloetapowego ataku
Rozdział omawia anatomię ataków prompt injection: od bezpośrednich i pośrednich wektorów, przez techniki niewidocznych wstrzyknięć, wieloetapowe scenariusze C2, trwałe infekcje przez pamięć agenta, aż po praktyczny scenariusz przeprowadzenia ataku na agenta z tool calling.
Prompt Injection — od atomowego exploitu do wieloetapowego ataku
- 2.1Direct prompt injection: anatomia ataku — "ignore previous instructions" i warianty
- 2.2Indirect prompt injection: gdy dane są instrukcją — RAG, dokumenty, emaile, web scrape
- 2.3Invisible injections: Unicode Tags, ASCII smuggling, homoglyphs, white-on-white
- 2.4Wieloetapowe i opóźnione ataki: context pollution i C2 via LLM
- 2.5SpAIware: persistent injection przez pamięć agenta (ChatGPT memories case)
- 2.6Scenariusz: przeprowadź indirect injection na agencie z tool calling — zidentyfikuj trzy wektory
MODUŁ 03Jailbreaking — kiedy i dlaczego safety alignment zawodzi
Rozdział analizuje mechanizmy zawodności safety alignmentu: od competing objectives i mismatched generalization, przez taksonomię technik jailbreak, many-shot ataki skalowalne bez gradientów, rozróżnienie jailbreak od prompt injection, po obrony po stronie aplikacji — self-reminder, instruction hierarchy i Constitutional AI.
Jailbreaking — kiedy i dlaczego safety alignment zawodzi
- 3.1Dwa failure modes safety trainingu: competing objectives i mismatched generalization
- 3.2Taksonomia jailbreaków: roleplay/persona, prefix injection, refusal suppression, cipher tricks
- 3.3Many-shot jailbreaking i prompt dilution — skalowalne ataki bez gradientów
- 3.4Jailbreak vs prompt injection — gdzie kończy się odpowiedzialność modelu, gdzie zaczyna się aplikacji
- 3.5Obrona po stronie aplikacji: self-reminder, instruction hierarchy, Constitutional AI w praktyce
MODUŁ 04System Prompt Security i ekstrakcja danych
Rozdział o atakach na system prompt i wyciekach danych z LLM: ekstrakcja promptu, manipulacja wieloetapowa, ujawnianie PII i kluczy API, training data extraction oraz wielowarstwowa ochrona systemu promptu.
System Prompt Security i ekstrakcja danych
- 4.1System prompt extraction: dlaczego "keep this secret" nie działa i jak wygląda atak
- 4.2Techniki ekstrakcji: wieloetapowa manipulacja, role-switching, context hijacking
- 4.3Sensitive information disclosure: PII, API keys, internal configs w outputach LLM
- 4.4Training data extraction i granice model inversion
- 4.5System prompt hardening: co działa, co nie — wielowarstwowe podejście do ochrony
MODUŁ 05Bezpieczeństwo agentów z narzędziami i MCP
Rozdział omawia zagrożenia i mechanizmy ochrony agentów AI wyposażonych w narzędzia: nadmierne uprawnienia (OWASP LLM06), bezpieczeństwo protokołu MCP, eskalację uprawnień w systemach multi-agent, konfigurację human-in-the-loop oraz praktyczny audit trail.
Bezpieczeństwo agentów z narzędziami i MCP
- 5.1OWASP LLM06:2025 Excessive Agency — trzy wymiary: function, permission, autonomy
- 5.2Least-privilege agent: projektowanie minimal-capability tool sets
- 5.3MCP security: tool poisoning, confused deputy i rug-pull w Model Context Protocol
- 5.4Cross-agent privilege escalation: jak sub-agent przejmuje orchestratora
- 5.5Human-in-the-loop: konfiguracja HITL dla destruktywnych operacji (delete, send, execute)
- 5.6Audit trail i observability dla agent actions: co logować i jak
MODUŁ 06Guardrails i AI Firewall — obrona wielowarstwowa
Rozdział omawia architekturę defense-in-depth dla systemów AI: od filtrów input/output, przez narzędzia Llama Guard, NeMo i Guardrails AI, wzorzec Dual LLM, sandboxing agentów, po dynamiczną adaptację guardrails wobec ewoluujących ataków.
Guardrails i AI Firewall — obrona wielowarstwowa
- 6.1Architektura defense-in-depth: pre-LLM filter — model — post-LLM filter — monitoring
- 6.2Input validation i output sanitization: co działa, co nie — dlaczego blocklists zawodzą
- 6.3Llama Guard, NeMo Guardrails i Guardrails AI — porównanie i pułapki
- 6.4Dual LLM pattern: użyj drugiego modelu jako strażnika własnego modelu
- 6.5Sandboxing agentów: deterministyczna izolacja vs AI-based allow-list
- 6.6Pułapka: "Attacker Moves Second" — dlaczego statyczna konfiguracja guardrails nie wystarczy
MODUŁ 07Red Teaming, monitoring i bezpieczny design systemu agentowego
Rozdział obejmuje pełny cykl ofensywno-obronny: od planowania i automatyzacji red teamingu LLM, przez budowę security evals w CI/CD i runtime monitoring, po bezpieczny design checklist dla systemów agentowych i końcowy scenariusz oceny bezpieczeństwa.
Red Teaming, monitoring i bezpieczny design systemu agentowego
- 7.1Metodologia red teamingu LLM: planowanie, scope, threat model — test plan
- 7.2Automatyzacja red teamingu: garak, PyRIT, PAIR — przegląd narzędzi
- 7.3Security evals w CI/CD pipeline: test suite jako continuous security gate
- 7.4Monitoring i detekcja ataków w runtime: anomaly detection, behavioral alerts
- 7.5Secure design checklist dla agentic systems: od threat model do deployment
- 7.6Scenariusz końcowy: pełna ocena bezpieczeństwa agenta — plan, wykonanie, raport