TRACE
Jak działa
Po każdym rolloutem τ: (1) ocena poprawności acc ∈ {0,1}; (2) zliczenie liczby wywołań narzędzi t_s = TurnCount(τ); (3) jeśli acc==1: R_trace = R⁺ − λ_t · t_s (premia za poprawność minus kara za każde wywołanie); jeśli acc==0: R_trace = R⁻ (stała kara); (4) na koniec epoki próg l_t aktualizowany do min z dotychczasowego l_t oraz minimalnej liczby kroków wśród poprawnych trajektorii w epoce. Mechanizm "raising the bar" sukcesywnie zacieśnia kryterium efektywności — model nie może odpoczywać na osiągniętym poziomie.
Rozwiązany problem
Klasyczne reward shaping w RL nagradza wyłącznie poprawność odpowiedzi — nie ma sygnału ograniczającego liczbę wywołań narzędzi. Agent może wyuczyć się odpowiadać poprawnie, ale po nadmiarowej liczbie rund, co generuje wysokie koszty inferencji w produkcji. TRACE wprowadza efektywność jako pełnoprawny cel treningu, a adaptacyjny próg zapobiega stagnacji optymalizacji.
Komponenty
Funkcja oceniająca poprawność końcowej odpowiedzi po pełnym rolloutem (binarnie 0/1).
Licznik wywołań narzędzi w trajektorii — bezpośrednio wpływa na karę.
Próg efektywności zacieśniany monotonicznie przez epoki: l_t ← min(l_t, min(T_tol)).
Współczynnik wagi kary za każde wywołanie narzędzia — kalibruje balans accuracy vs. efektywność.
Implementacja
Jeśli l_t opada zbyt szybko, model może nie zdążyć nauczyć się alternatywnych krótszych trajektorii i utknąć na niezerowej karze. Wymaga warm-up dla l_t.
Za mała λ_t → kara za wywołania pomijalna, model nie minimalizuje liczby kroków. Za duża → model unika narzędzi nawet gdy są konieczne, accuracy spada.
Przy bardzo wysokiej karze za wywołania model może preferować szybką niepoprawną odpowiedź (R⁻) zamiast długiej poprawnej. Wymaga R⁻ wyraźnie niższego niż dowolna trajektoria poprawna.
Paradygmat wykonania
Równoległość
Wymagania sprzętowe
TRACE jako część RL pipeline wymaga GPU do równoległych rolloutów agenta — wiele trajektorii na raz dla stabilnej estymacji gradientu policy.