Robocikowo>ROBOCIKOWO

Kursy

cover

Agentic AIŚredniozaawansowany

Bezpieczeństwo agentów AI — ataki, jailbreak i obrona

7 Rozdziałów39 Lekcji

Kurs obejmuje trzy warstwy bezpieczeństwa systemów agentowych: (1) taksonomię ataków — prompt injection bezpośredni i pośredni, jailbreaking technikami tanimi jak DAN i roleplay, model inversion oraz data extraction; (2) mechanizmy obrony — input/output sanitization, instruction hierarchy, sandboxing narzędzi agenta, system prompts hardening oraz AI firewall jako zewnętrzna warstwa filtracji; (3) projektowanie bezpiecznych systemów multi-agent — izolacja uprawnień, least-privilege tool access, auditing i monitoring anomalii w czasie rzeczywistym. Prerequisity: znajomość API LLM (OpenAI/Anthropic), doświadczenie w budowie co najmniej jednego systemu z agentem AI lub chatbotem produkcyjnym. Kurs NIE pokrywa: kryptografii, bezpieczeństwa infrastruktury sieciowej, compliance i regulacji (GDPR/AI Act) ani adversarial ML (ataki na wagi modeli). Absolwent kursu potrafi ocenić powierzchnię ataku własnego systemu agentowego, zastosować gotowe wzorce obrony i świadomie dobierać kompromisy między bezpieczeństwem a użytecznością agenta.

Rozdziały

MODUŁ 01

Jak działa atak na agenta AI — model mentalny i mapa zagrożeń

0 / 5 · 0%

Rozdział buduje fundamentalny model mentalny atakującego agenta AI: od granic zaufania LLM, przez anatomię powierzchni ataku (LLM, tools, memory, orchestrator), po taksonomię OWASP GenAI Top 10:2025 i praktyczny threat modeling canvas.

  1. 1.1LLM jako system zaufania, nie logiki — trust boundary w kontekście agenta
  2. 1.2Architektura agenta jako powierzchnia ataku: LLM + tools + memory + orchestrator
  3. 1.3Direct attacker vs indirect attacker — fundamentalna różnica
  4. 1.4OWASP GenAI Top 10:2025 — mapa zagrożeń jako przewodnik kursu
  5. 1.5Threat modeling canvas dla agenta z narzędziami — ćwiczenie praktyczne
MODUŁ 02

Prompt Injection — od atomowego exploitu do wieloetapowego ataku

0 / 6 · 0%

Rozdział omawia anatomię ataków prompt injection: od bezpośrednich i pośrednich wektorów, przez techniki niewidocznych wstrzyknięć, wieloetapowe scenariusze C2, trwałe infekcje przez pamięć agenta, aż po praktyczny scenariusz przeprowadzenia ataku na agenta z tool calling.

  1. 2.1Direct prompt injection: anatomia ataku — "ignore previous instructions" i warianty
  2. 2.2Indirect prompt injection: gdy dane są instrukcją — RAG, dokumenty, emaile, web scrape
  3. 2.3Invisible injections: Unicode Tags, ASCII smuggling, homoglyphs, white-on-white
  4. 2.4Wieloetapowe i opóźnione ataki: context pollution i C2 via LLM
  5. 2.5SpAIware: persistent injection przez pamięć agenta (ChatGPT memories case)
  6. 2.6Scenariusz: przeprowadź indirect injection na agencie z tool calling — zidentyfikuj trzy wektory
MODUŁ 03

Jailbreaking — kiedy i dlaczego safety alignment zawodzi

0 / 5 · 0%

Rozdział analizuje mechanizmy zawodności safety alignmentu: od competing objectives i mismatched generalization, przez taksonomię technik jailbreak, many-shot ataki skalowalne bez gradientów, rozróżnienie jailbreak od prompt injection, po obrony po stronie aplikacji — self-reminder, instruction hierarchy i Constitutional AI.

  1. 3.1Dwa failure modes safety trainingu: competing objectives i mismatched generalization
  2. 3.2Taksonomia jailbreaków: roleplay/persona, prefix injection, refusal suppression, cipher tricks
  3. 3.3Many-shot jailbreaking i prompt dilution — skalowalne ataki bez gradientów
  4. 3.4Jailbreak vs prompt injection — gdzie kończy się odpowiedzialność modelu, gdzie zaczyna się aplikacji
  5. 3.5Obrona po stronie aplikacji: self-reminder, instruction hierarchy, Constitutional AI w praktyce
MODUŁ 04

System Prompt Security i ekstrakcja danych

0 / 5 · 0%

Rozdział o atakach na system prompt i wyciekach danych z LLM: ekstrakcja promptu, manipulacja wieloetapowa, ujawnianie PII i kluczy API, training data extraction oraz wielowarstwowa ochrona systemu promptu.

  1. 4.1System prompt extraction: dlaczego "keep this secret" nie działa i jak wygląda atak
  2. 4.2Techniki ekstrakcji: wieloetapowa manipulacja, role-switching, context hijacking
  3. 4.3Sensitive information disclosure: PII, API keys, internal configs w outputach LLM
  4. 4.4Training data extraction i granice model inversion
  5. 4.5System prompt hardening: co działa, co nie — wielowarstwowe podejście do ochrony
MODUŁ 05

Bezpieczeństwo agentów z narzędziami i MCP

0 / 6 · 0%

Rozdział omawia zagrożenia i mechanizmy ochrony agentów AI wyposażonych w narzędzia: nadmierne uprawnienia (OWASP LLM06), bezpieczeństwo protokołu MCP, eskalację uprawnień w systemach multi-agent, konfigurację human-in-the-loop oraz praktyczny audit trail.

  1. 5.1OWASP LLM06:2025 Excessive Agency — trzy wymiary: function, permission, autonomy
  2. 5.2Least-privilege agent: projektowanie minimal-capability tool sets
  3. 5.3MCP security: tool poisoning, confused deputy i rug-pull w Model Context Protocol
  4. 5.4Cross-agent privilege escalation: jak sub-agent przejmuje orchestratora
  5. 5.5Human-in-the-loop: konfiguracja HITL dla destruktywnych operacji (delete, send, execute)
  6. 5.6Audit trail i observability dla agent actions: co logować i jak
MODUŁ 06

Guardrails i AI Firewall — obrona wielowarstwowa

0 / 6 · 0%

Rozdział omawia architekturę defense-in-depth dla systemów AI: od filtrów input/output, przez narzędzia Llama Guard, NeMo i Guardrails AI, wzorzec Dual LLM, sandboxing agentów, po dynamiczną adaptację guardrails wobec ewoluujących ataków.

  1. 6.1Architektura defense-in-depth: pre-LLM filter — model — post-LLM filter — monitoring
  2. 6.2Input validation i output sanitization: co działa, co nie — dlaczego blocklists zawodzą
  3. 6.3Llama Guard, NeMo Guardrails i Guardrails AI — porównanie i pułapki
  4. 6.4Dual LLM pattern: użyj drugiego modelu jako strażnika własnego modelu
  5. 6.5Sandboxing agentów: deterministyczna izolacja vs AI-based allow-list
  6. 6.6Pułapka: "Attacker Moves Second" — dlaczego statyczna konfiguracja guardrails nie wystarczy
MODUŁ 07

Red Teaming, monitoring i bezpieczny design systemu agentowego

0 / 6 · 0%

Rozdział obejmuje pełny cykl ofensywno-obronny: od planowania i automatyzacji red teamingu LLM, przez budowę security evals w CI/CD i runtime monitoring, po bezpieczny design checklist dla systemów agentowych i końcowy scenariusz oceny bezpieczeństwa.

  1. 7.1Metodologia red teamingu LLM: planowanie, scope, threat model — test plan
  2. 7.2Automatyzacja red teamingu: garak, PyRIT, PAIR — przegląd narzędzi
  3. 7.3Security evals w CI/CD pipeline: test suite jako continuous security gate
  4. 7.4Monitoring i detekcja ataków w runtime: anomaly detection, behavioral alerts
  5. 7.5Secure design checklist dla agentic systems: od threat model do deployment
  6. 7.6Scenariusz końcowy: pełna ocena bezpieczeństwa agenta — plan, wykonanie, raport