Robocikowo>ROBOCIKOWO
Infrastruktura

Agent Harness

2022AktywnyOpublikowano: 5 maja 2026Aktualizacja: 5 maja 2026Opublikowany
Warstwa infrastrukturalna agenta: pętla wykonawcza, narzędzia, sandbox, pamięć, polityki i protokoły zewnętrzne, które otaczają model językowy i nadają mu zdolność do działania w świecie.
Kluczowa innowacja
Wydzielenie wszystkiego, co znajduje się POZA modelem językowym a jest niezbędne do działania agenta — pętli kontrolnej, schematów narzędzi, sandboxa, pamięci, polityk, atrybucji i protokołów komunikacji — w odrębną warstwę inżynieryjną, którą można wymieniać niezależnie od modelu bazowego.
Kategoria
Infrastruktura
Poziom abstrakcji
Pattern
Poziom operacji
OrkiestracjaToolingAplikacja
Zastosowania
Per-agent harness w Claude Code, Cursor, Devin — pętla, narzędzia, sandbox, pamięć projektuFrameworki agentowe: LangGraph, CrewAI, AutoGen, OpenAI Agents SDK — gotowy harness do reuseSandboxy wykonania kodu: E2B, Modal, Daytona, Anthropic „computer use" sandboxProtokoły zewnętrzne: MCP (Anthropic) dla narzędzi, A2A (Google) dla komunikacji między agentamiObserwowalność agentów: LangSmith, Langfuse, Helicone, BraintrustAtrybucja i tożsamość agenta — wymagane do enterprise audytu i complianceShared infrastructure dla AaaS — Sierra, Decagon, Salesforce Agentforce zestawiają harness + infra

Jak działa

Harness wokół modelu definiuje: (1) pętlę wykonawczą — strategia kolejnych kroków (ReAct, plan-and-execute, reflection); (2) interfejs narzędzi — schematy JSON, walidacja parametrów, retry; (3) sandbox — izolowane środowisko wykonania kodu (Docker/microVM); (4) pamięć — kontekst sesji, scratchpad, pamięć długoterminowa; (5) prompt systemowy i guardraile; (6) obserwowalność — trace, logi, ewaluacja. Infrastructure dokłada warstwę między-agentową: (a) atrybucja działań do osoby/organizacji, (b) protokoły komunikacji (MCP dla narzędzi, A2A dla agentów), (c) systemy reputacji i nadzoru, (d) mechanizmy interwencji.

Rozwiązany problem

Agentowe systemy zbudowane bezpośrednio na surowym LLM są niesterowne, niebezpieczne i niemierzalne: brak pętli kontrolnej, brak izolacji wykonania, brak atrybucji działań, brak protokołów wymiany. Harness/Infrastructure dostarcza powtarzalną warstwę inżynieryjną, która nadaje agentom obserwowalność, bezpieczeństwo, tożsamość i zdolność do współpracy.

Komponenty

Control loopOrchestrate

Strategia podejmowania kolejnych kroków: ReAct, plan-and-execute, reflection, tree-of-thoughts.

Tool interfaceBridge

Schematy JSON, walidacja parametrów, retry, mapowanie na MCP / function calling.

Execution sandboxIsolate

Izolowane środowisko (Docker, microVM, Firecracker) dla kodu i operacji systemowych agenta.

Memory subsystemRemember

Kontekst sesji, scratchpad, pamięć długoterminowa (vector store) i mechanizm kompresji historii.

Policy / guardrailsConstrain

Dopuszczalne narzędzia, limity wydatków, zasady eskalacji, klasy ryzyka, allowlists/blocklists.

Identity & attributionAttribute

Identyfikacja agenta, podpisywanie działań, mapowanie na osobę/organizację (Chan et al. 2025).

Inter-agent communicationCommunicate

Protokoły takie jak A2A (Google) i MCP (Anthropic) — standardy wymiany między agentami i narzędziami.

Observability & evaluationObserve

Tracing kroków agenta, logi narzędzi, evaluacja offline/online, replay i debug.

Implementacja

Pułapki implementacyjne
Nadmiar abstrakcji w harnessWysoka

Wczesne frameworki przerastają model warstwami abstrakcji; Anthropic rekomenduje zaczynać od prostych pętli.

Brak izolacji wykonaniaKrytyczna

Uruchamianie kodu generowanego przez agenta w procesie hosta to krytyczna luka bezpieczeństwa.

Nieograniczone pętle i kosztyKrytyczna

Brak limitów kroków, czasu i wydatków powoduje nieskończone pętle i niekontrolowany koszt API.

Brak atrybucjiWysoka

Bez tożsamości i podpisywania nie da się prześledzić, kto/co wykonało daną akcję — blokuje audit i enterprise.

Eksplozja kontekstuWysoka

Naiwna konkatenacja historii i wyników narzędzi szybko przepełnia okno; konieczna kompresja/streszczenia.

Tool poisoning / prompt injectionKrytyczna

Wynik narzędzia może zawierać złośliwe instrukcje; harness musi traktować outputy jako niezaufane dane.

Brak observabilityWysoka

Bez tracingu kroków debugowanie agenta jest praktycznie niemożliwe.

Vendor lock harness vs modelŚrednia

Zbyt ścisłe sprzęgnięcie z konkretnym SDK utrudnia migrację modelu lub providera.

Ewolucja

2022
ReAct (Yao et al.) — pierwsza powszechna pętla agentowa myśl/akcja/obserwacja, kanoniczna podstawa harness.
Punkt przełomowy
2023
OpenAI Function Calling — formalna warstwa interfejsu narzędzi w harnessie.
2023
AutoGPT, BabyAGI — pierwsze open-source harnessy ze sprzężeniem zwrotnym i pamięcią.
2024
Anthropic „Building effective agents" — wskazówki projektowe dla harnessu (proste loops, mało abstrakcji).
2024
Anthropic Computer Use — sandbox + harness do sterowania graficznym desktopem.
2024
Model Context Protocol (MCP, Anthropic) — pierwszy szeroko adoptowany standard tool-calling jako infrastruktura.
Punkt przełomowy
2025
Chan et al. „Infrastructure for AI Agents" (TMLR) — formalizacja agent infrastructure jako odrębnego obszaru badań.
Punkt przełomowy
2025
Google A2A — protokół agent-to-agent komplementarny do MCP.
2025
OpenAI Agents SDK, LangGraph 0.x stable — dojrzewają opinionated frameworki harness.
Szczegóły techniczne

Hiperparametry (konfigurowalne osie)

Loop strategyKrytyczna

ReAct vs plan-and-execute vs reflection vs tree-of-thoughts — dobór strategii kontrolnej.

Tool surfaceKrytyczna

Liczba i granularność narzędzi udostępnionych agentowi; trade-off kompetencji vs halucynacji.

Isolation levelWysoka

Brak / proces / kontener / microVM / hardware enclave — siła izolacji.

Memory horizonWysoka

Tylko bieżące okno kontekstu vs persystentna pamięć długoterminowa.

Policy strictnessWysoka

Permissive (developer mode) vs strict (production) — limity, allowlists, eskalacja do człowieka.

Identity modelŚrednia

Anonimowy agent vs nazwany agent przypięty do osoby/organizacji (Chan et al. 2025).

Paradygmat wykonania

Tryb główny
conditional
Wzorzec aktywacji
input_dependent