W kazdej probie agent wykonuje zadanie i otrzymuje sygnał zwrotny. Moduł refleksji (ten sam LLM) analizuje sygnał zwrotny i generuje werbalna refleksje opisujaca błedy i sposob ich unikniecia. Refleksja jest dodawana do bufora pamieci epizodycznej. W nastepnej probie bufor pamieci jest dolaczany do kontekstu agenta, umozliwiajac mu wnioskowanie na podstawie poprzednich doswiadczen.
Tradycyjne metody uczenia przez wzmacnianie wymagaja duzej liczby prob i kosztownego dostrajania wag modelu; agenty LLM powinny miec mozliwosc szybkiego uczenia sie z probob bez modyfikacji parametrow.
Wielokrotne wywołania LLM w pętli refleksji kumulują koszt inferencji — GPU z dużą VRAM umożliwia batch inference i redukuje latencję pętli.