Agenci

Reflexion

2023AktywnyAktualizacja: 6 maja 2026Opublikowany

Ramka wzmacniajaca agentow LLM przez werbalna refleksje nad błedami i epizodyczna pamiec, zamiast aktualizacji wag modelu.

Kluczowa innowacja

Zastapił aktualizacje wag sieci neuronowej werbalnym uczeniem przez wzmacnianie, w ktorym agent reflektuje słownie nad sygnałami bledu i przechowuje wnioski w epizodycznej pamieci, umozliwiajac szybka adaptacje bez kosztownego douczania.

Kategoria

Agenci

Poziom abstrakcji

Wzorzec

Poziom operacji

Środowisko agentoweInferencja

Zastosowania

Agenty do generowania i debugowania koduAgenty do sekwencyjnego podejmowania decyzjiAgenty do nawigacji i planowaniaRozwiazywanie zadan wymagajacych iteracyjnego ulepszania

Jak działa

W kazdej probie agent wykonuje zadanie i otrzymuje sygnał zwrotny. Moduł refleksji (ten sam LLM) analizuje sygnał zwrotny i generuje werbalna refleksje opisujaca błedy i sposob ich unikniecia. Refleksja jest dodawana do bufora pamieci epizodycznej. W nastepnej probie bufor pamieci jest dolaczany do kontekstu agenta, umozliwiajac mu wnioskowanie na podstawie poprzednich doswiadczen.

Rozwiązany problem

Tradycyjne metody uczenia przez wzmacnianie wymagaja duzej liczby prob i kosztownego dostrajania wag modelu; agenty LLM powinny miec mozliwosc szybkiego uczenia sie z probob bez modyfikacji parametrow.