Bezpieczeństwo agentów AI — ataki, jailbreak i obrona · Bezpieczeństwo agentów z narzędziami i MCP

Human-in-the-loop: konfiguracja HITL dla destruktywnych operacji (delete, send, execute)

Bezpieczeństwo agentów z narzędziami i MCP

Wprowadzenie

Human-in-the-loop (HITL) to wzorzec architektury wymagający explicite zatwierdzenia przez człowieka przed wykonaniem operacji o wysokim wpływie lub nieodwracalnych skutkach. Lekcja omawia: jak klasyfikować operacje wymagające HITL, jak implementować checkpointy techniczne, jakie są trade-offy między bezpieczeństwem a użytecznością, jak unikać "approval fatigue" prowadzącego do odruchowego klikania "OK", oraz wzorce implementacji w popularnych frameworkach agentowych.