AI Agents (Autonomous Agents)
Jak działa
Agent otrzymuje cel od użytkownika oraz definicje dostępnych narzędzi (schematy JSON / OpenAPI / MCP) i instrukcje systemowe (rola, zasady bezpieczeństwa). W każdej iteracji pętli: (1) model analizuje aktualny kontekst i decyduje o kolejnym działaniu — wywołać narzędzie, zadać pytanie, zakończyć; (2) host wykonuje wybrane narzędzie i zwraca wynik; (3) wynik jest dopisywany do kontekstu jako obserwacja; (4) model decyduje czy kontynuować. Pętla kończy się gdy model uzna cel za osiągnięty, osiągnięty zostanie limit max_steps, lub zostanie wykryty stan błędu wymagający eskalacji do człowieka. Agent może zachowywać pamięć krótkoterminową w oknie kontekstu i długoterminową w zewnętrznym magazynie (baza wektorowa, klucz-wartość).
Rozwiązany problem
Pojedyncze wywołanie LLM nie potrafi obsłużyć zadań otwartych (gdzie liczba kroków nie jest znana z góry), wymagających działania w środowisku, korzystania z aktualnych danych, wykonywania kodu lub iteracyjnej weryfikacji wyników. AI Agent rozwiązuje ten problem przez osadzenie modelu w pętli sterowania z dostępem do narzędzi i pamięci, pozwalając na autonomiczne wykonanie zadania end-to-end.
Komponenty
Silnik rozumowania i decyzji agenta. Generuje plany, wybiera narzędzia, interpretuje wyniki i decyduje o zakończeniu. Najczęściej LLM po post-treningu RLHF i tool-use, opcjonalnie reasoning model (CoT z dedykowanym budżetem tokenów rozumowania).
Definicje wywoływalnych funkcji wraz z ich schematami (JSON Schema, OpenAPI) oraz dokumentacją. Anthropic nazywa to Agent-Computer Interface (ACI) — staranność w jego projektowaniu jest krytyczna dla niezawodności agenta. Często udostępniane przez Model Context Protocol.
Oficjalna
Pamięć krótkoterminowa (historia konwersacji, wyniki narzędzi w kontekście) oraz opcjonalna długoterminowa (baza wektorowa, magazyn klucz-wartość, struktury epizodyczne) między sesjami. Decyduje o spójności i personalizacji w długich zadaniach.
Oficjalna
Mechanizm wykonujący iteracje: pobierz kontekst → wywołaj model → sparsuj decyzję → wykonaj narzędzie → zaktualizuj kontekst → sprawdź warunek zakończenia. Zarządza limitami (max_steps, budżet czasu/tokenów) i wykrywa pętle nieskończone.
Oficjalna
Stała instrukcja definiująca tożsamość agenta, cel, zakres odpowiedzialności, zasady bezpieczeństwa, format odpowiedzi i kryteria zakończenia. Pierwsza linia obrony przed niewłaściwym zachowaniem i prompt injection.
Filtry i walidatory działające przed inferencją (sanityzacja wejścia), w trakcie (walidacja schematów wywołań narzędzi) i po (kontrola wyjścia, redakcja PII, blokada nieodwracalnych działań). Krytyczne dla bezpieczeństwa produkcyjnego.
Oficjalna
Logowanie kroków, traces (LangSmith, Arize, Helicone), metryki (success rate, tool error rate, average steps, cost per task), oraz automatyczne ewaluacje przeciwko zestawom testowym. Niezbędne do produkcyjnego utrzymania agenta.
Oficjalna
Implementacja
Niejasne nazwy narzędzi, brak przykładów, niedoprecyzowane parametry — te same problemy, które dotyczą juniorskich programistów, dotyczą modelu. Anthropic raportuje, że poświęcają więcej czasu na optymalizację narzędzi niż na sam prompt agenta.
Agent może twierdzić, że wykonał akcję, której faktycznie nie zrealizował, lub wywoływać narzędzia z wymyślonymi parametrami — szczególnie groźne w wieloetapowych pipeline'ach gdzie błędy się propagują.
Bez twardego max_steps i wykrywania powtórzeń agent może zapętlać się w nieskończoność, generując błędne kroki na podstawie poprzednich błędnych obserwacji. Koszty rosną liniowo z liczbą kroków.
Złośliwe instrukcje osadzone w treści stron, dokumentów lub e-maili, które agent czyta, mogą przejąć kontrolę nad jego zachowaniem, podszywając się pod instrukcje systemowe.
Agent z dostępem do tools z prawem zapisu (delete, send_email, db_write, payment) może wyrządzić rzeczywistą szkodę na podstawie błędnego rozumowania. Skutki bywają niemożliwe do cofnięcia.
Akumulowana historia akcji i wyników narzędzi może przekroczyć okno kontekstu modelu, powodując ciche obcinanie wcześniejszych kroków i utratę istotnych informacji.
Anthropic stanowczo rekomenduje: nie buduj agenta gdy zadanie ma znaną, predefiniowaną strukturę. Workflow jest tańszy, szybszy, bardziej przewidywalny i łatwiejszy do debugowania niż agent.
Ewolucja
Russell i Norvig formalizują racjonalnych agentów; powstają architektury Belief-Desire-Intention (Rao i Georgeff). Definiowany kanon: agent postrzega środowisko i podejmuje działania zorientowane na cel.
Yao i in. (2022) demonstrują że LLM mogą przeplatać Chain-of-Thought z wywołaniami narzędzi w pojedynczej pętli. Praktyczna definicja AI Agent opartego na LLM.
Wirusowo popularne implementacje pokazują autonomicznych agentów GPT-4 wykonujących wieloetapowe zadania. Pomimo ograniczonej niezawodności pokazują potencjał i upowszechniają termin.
OpenAI (czerwiec 2023) wprowadza function calling w GPT-4; Anthropic, Google podążają. Pierwsza klasa wsparcia dla agentów na poziomie API komercyjnych modeli.
Anthropic publikuje (grudzień 2024) wytyczne odróżniające agenta od workflow oraz pięć wzorców kompozycyjnych. Kanoniczna definicja agenta: system, w którym LLM dynamicznie steruje swoim procesem.
Anthropic wprowadza Computer Use w Claude (październik 2024) — agent klika, pisze i porusza myszą jak człowiek. OpenAI Operator (2025) podąża. Otwiera klasę agentów GUI niezależnych od API.
Anthropic publikuje MCP jako otwarty standard łączenia LLM z zewnętrznymi serwerami narzędzi. Umożliwia ekosystem narzędzi przenośnych między dostawcami modeli.
Sierra (marzec 2026) ogłasza paradygmat Agents-as-a-Service — klient kupuje rezultaty wykonane przez agenta zamiast aplikacji SaaS. Agenci stają się jednostką dostarczania produktu, nie tylko biblioteką techniczną.
Szczegóły techniczne
Hiperparametry (konfigurowalne osie)
Zakres decyzji, które agent podejmuje bez zatwierdzenia człowieka — od trybu sugerującego (proposal-only) do pełnej autonomii z możliwością cofnięcia.
Lista wywoływalnych funkcji dostępnych dla agenta. Definiuje przestrzeń możliwych działań i jest najsilniejszym predyktorem zachowania agenta.
Twardy limit iteracji pętli przed wymuszonym zakończeniem. Zabezpieczenie kosztu i pętli nieskończonych.
Sposób zarządzania kontekstem między krokami i sesjami: tylko okno kontekstu, podsumowywanie, baza wektorowa, struktury epizodyczne.
Maksymalny koszt obliczeniowy lub liczba tokenów dla jednego uruchomienia agenta. Krytyczne dla wdrożeń produkcyjnych z rozliczeniem outcome-based.
Kiedy agent eskaluje do człowieka: nigdy, na żądanie, po N nieudanych krokach, przed nieodwracalną akcją, na podstawie sygnału niepewności.
Paradygmat wykonania
Agent ≠ workflow: w workflow ścieżka jest predefiniowana w kodzie i LLM tylko realizuje konkretne kroki; w agencie LLM steruje całym procesem.
W każdym kroku model decyduje, które narzędzie wywołać, czy zadać pytanie wyjaśniające, czy zakończyć — na podstawie aktualnego kontekstu i obserwacji. Ścieżka wykonania nie jest predefiniowana w kodzie.
Równoległość
Równoległość najczęściej osiągana międzysesyjnie (wiele agentów dla różnych zadań) lub w wzorcach orchestrator-workers (jeden orkiestrator deleguje do wielu agentów-pracowników jednocześnie).
Wymagania sprzętowe
Inferencja bazowego LLM dominuje koszty i opóźnienie agenta; GPU z tensor cores są standardem dla wszystkich nowoczesnych modeli używanych w produkcji.
Google używa TPU dla agentów opartych na Gemini; porównywalna przepustowość i koszt jak GPU dla większości obciążeń.
Sama warstwa pętli sterowania, parsowania narzędzi i orkiestracji jest lekka i działa na CPU; wymagania sprzętowe wynikają z bazowego modelu, nie z konstrukcji agenta.