Infrastruktura

Agent Harness

2022AktywnyOpublikowano: 5 maja 2026Aktualizacja: 5 maja 2026Opublikowany

Warstwa infrastrukturalna agenta: pętla wykonawcza, narzędzia, sandbox, pamięć, polityki i protokoły zewnętrzne, które otaczają model językowy i nadają mu zdolność do działania w świecie.

Kluczowa innowacja

Wydzielenie wszystkiego, co znajduje się POZA modelem językowym a jest niezbędne do działania agenta — pętli kontrolnej, schematów narzędzi, sandboxa, pamięci, polityk, atrybucji i protokołów komunikacji — w odrębną warstwę inżynieryjną, którą można wymieniać niezależnie od modelu bazowego.

Kategoria

Infrastruktura

Poziom abstrakcji

Wzorzec

Poziom operacji

OrkiestracjaToolingAplikacja

Zastosowania

Per-agent harness w Claude Code, Cursor, Devin — pętla, narzędzia, sandbox, pamięć projektuFrameworki agentowe: LangGraph, CrewAI, AutoGen, OpenAI Agents SDK — gotowy harness do reuseSandboxy wykonania kodu: E2B, Modal, Daytona, Anthropic „computer use" sandboxProtokoły zewnętrzne: MCP (Anthropic) dla narzędzi, A2A (Google) dla komunikacji między agentamiObserwowalność agentów: LangSmith, Langfuse, Helicone, BraintrustAtrybucja i tożsamość agenta — wymagane do enterprise audytu i complianceShared infrastructure dla AaaS — Sierra, Decagon, Salesforce Agentforce zestawiają harness + infra

Jak działa

Harness wokół modelu definiuje: (1) pętlę wykonawczą — strategia kolejnych kroków (ReAct, plan-and-execute, reflection); (2) interfejs narzędzi — schematy JSON, walidacja parametrów, retry; (3) sandbox — izolowane środowisko wykonania kodu (Docker/microVM); (4) pamięć — kontekst sesji, scratchpad, pamięć długoterminowa; (5) prompt systemowy i guardraile; (6) obserwowalność — trace, logi, ewaluacja. Infrastructure dokłada warstwę między-agentową: (a) atrybucja działań do osoby/organizacji, (b) protokoły komunikacji (MCP dla narzędzi, A2A dla agentów), (c) systemy reputacji i nadzoru, (d) mechanizmy interwencji.

Rozwiązany problem

Agentowe systemy zbudowane bezpośrednio na surowym LLM są niesterowne, niebezpieczne i niemierzalne: brak pętli kontrolnej, brak izolacji wykonania, brak atrybucji działań, brak protokołów wymiany. Harness/Infrastructure dostarcza powtarzalną warstwę inżynieryjną, która nadaje agentom obserwowalność, bezpieczeństwo, tożsamość i zdolność do współpracy.

Komponenty

Control loopOrchestrate

Strategia podejmowania kolejnych kroków: ReAct, plan-and-execute, reflection, tree-of-thoughts.

Tool interfaceBridge

Schematy JSON, walidacja parametrów, retry, mapowanie na MCP / function calling.

Execution sandboxIsolate

Izolowane środowisko (Docker, microVM, Firecracker) dla kodu i operacji systemowych agenta.

Memory subsystemRemember

Kontekst sesji, scratchpad, pamięć długoterminowa (vector store) i mechanizm kompresji historii.

Policy / guardrailsConstrain

Dopuszczalne narzędzia, limity wydatków, zasady eskalacji, klasy ryzyka, allowlists/blocklists.

Identity & attributionAttribute

Identyfikacja agenta, podpisywanie działań, mapowanie na osobę/organizację (Chan et al. 2025).

Inter-agent communicationCommunicate

Protokoły takie jak A2A (Google) i MCP (Anthropic) — standardy wymiany między agentami i narzędziami.

Observability & evaluationObserve

Tracing kroków agenta, logi narzędzi, evaluacja offline/online, replay i debug.

Implementacja

Implementacje referencyjne

LangGraph

OpenAI Agents SDK

Model Context Protocol

Agent2Agent Protocol (A2A)

E2B

Pułapki implementacyjne

Nadmiar abstrakcji w harnessWysoka

Wczesne frameworki przerastają model warstwami abstrakcji; Anthropic rekomenduje zaczynać od prostych pętli.

Brak izolacji wykonaniaKrytyczna

Uruchamianie kodu generowanego przez agenta w procesie hosta to krytyczna luka bezpieczeństwa.

Nieograniczone pętle i kosztyKrytyczna

Brak limitów kroków, czasu i wydatków powoduje nieskończone pętle i niekontrolowany koszt API.

Brak atrybucjiWysoka

Bez tożsamości i podpisywania nie da się prześledzić, kto/co wykonało daną akcję — blokuje audit i enterprise.

Eksplozja kontekstuWysoka

Naiwna konkatenacja historii i wyników narzędzi szybko przepełnia okno; konieczna kompresja/streszczenia.

Tool poisoning / prompt injectionKrytyczna

Wynik narzędzia może zawierać złośliwe instrukcje; harness musi traktować outputy jako niezaufane dane.

Brak observabilityWysoka

Bez tracingu kroków debugowanie agenta jest praktycznie niemożliwe.

Vendor lock harness vs modelŚrednia

Zbyt ścisłe sprzęgnięcie z konkretnym SDK utrudnia migrację modelu lub providera.

Ewolucja

2022

ReAct (Yao et al.) — pierwsza powszechna pętla agentowa myśl/akcja/obserwacja, kanoniczna podstawa harness.

Punkt przełomowy

2023

OpenAI Function Calling — formalna warstwa interfejsu narzędzi w harnessie.

2023

AutoGPT, BabyAGI — pierwsze open-source harnessy ze sprzężeniem zwrotnym i pamięcią.

2024

Anthropic „Building effective agents" — wskazówki projektowe dla harnessu (proste loops, mało abstrakcji).

2024

Anthropic Computer Use — sandbox + harness do sterowania graficznym desktopem.

2024

Model Context Protocol (MCP, Anthropic) — pierwszy szeroko adoptowany standard tool-calling jako infrastruktura.

Punkt przełomowy

2025

Chan et al. „Infrastructure for AI Agents" (TMLR) — formalizacja agent infrastructure jako odrębnego obszaru badań.

Punkt przełomowy

2025

Google A2A — protokół agent-to-agent komplementarny do MCP.

2025

OpenAI Agents SDK, LangGraph 0.x stable — dojrzewają opinionated frameworki harness.

Źródła

Infrastructure for AI Agents

Paper

arXiv / TMLR

Building effective agents

Blog

Anthropic

ReAct: Synergizing Reasoning and Acting in Language Models

Paper

arXiv

Model Context Protocol — specification

Dokumentacja

Anthropic

Agent Harness

Jak działa

Rozwiązany problem

Komponenty

Implementacja

Ewolucja

Źródła

Hiperparametry (konfigurowalne osie)

Paradygmat wykonania