Bezpieczeństwo agentów AI — ataki, jailbreak i obrona · Guardrails i AI Firewall — obrona wielowarstwowa

Dual LLM pattern: użyj drugiego modelu jako strażnika własnego modelu

Guardrails i AI Firewall — obrona wielowarstwowa

Wprowadzenie

Dual LLM pattern (zwany też "LLM-as-judge for safety" lub "privileged LLM + unprivileged LLM") to architektura w której jeden model pełni rolę generatora, a drugi — niezależnego strażnika. Ta lekcja omawia architekturę wzorca, jego warianty (symmetric vs asymmetric, inline vs async), konkretne zastosowania, granice skuteczności i pułapki implementacyjne.