Trening

TRACE

2026BadawczyOpublikowany

Funkcja nagrody RL premiująca dokładność i karząca nadmiarowe wywołania narzędzi, z adaptacyjnie zacieśnianym progiem efektywności.

Kluczowa innowacja

Nagroda na poziomie trajektorii penalizująca liczbę wywołań narzędzi, z progiem efektywności zacieśnianym monotonicznie przez epoki treningu — wymusza naukę coraz krótszych trajektorii dla tego samego zadania.

Kategoria

Trening

Poziom abstrakcji

Building block

Poziom operacji

Po-treningTrening

Zastosowania

Trening agentów wielomodalnych z wieloma wywołaniami narzędzi (HyperEyes)Optymalizacja kosztu inferencji w agentach produkcyjnychTrening modeli rozumowania ograniczających długość Chain-of-ThoughtRL dla agentów z dostępem do narzędzi (web search, code interpreter)Reinforcement Fine-Tuning z budżetem obliczeniowym

Jak działa

Po każdym rolloutem τ: (1) ocena poprawności acc ∈ {0,1}; (2) zliczenie liczby wywołań narzędzi t_s = TurnCount(τ); (3) jeśli acc==1: R_trace = R⁺ − λ_t · t_s (premia za poprawność minus kara za każde wywołanie); jeśli acc==0: R_trace = R⁻ (stała kara); (4) na koniec epoki próg l_t aktualizowany do min z dotychczasowego l_t oraz minimalnej liczby kroków wśród poprawnych trajektorii w epoce. Mechanizm "raising the bar" sukcesywnie zacieśnia kryterium efektywności — model nie może odpoczywać na osiągniętym poziomie.

Rozwiązany problem

Klasyczne reward shaping w RL nagradza wyłącznie poprawność odpowiedzi — nie ma sygnału ograniczającego liczbę wywołań narzędzi. Agent może wyuczyć się odpowiadać poprawnie, ale po nadmiarowej liczbie rund, co generuje wysokie koszty inferencji w produkcji. TRACE wprowadza efektywność jako pełnoprawny cel treningu, a adaptacyjny próg zapobiega stagnacji optymalizacji.

Komponenty

Trajectory accuracy evaluator

Funkcja oceniająca poprawność końcowej odpowiedzi po pełnym rolloutem (binarnie 0/1).

Tool-call counter

Licznik wywołań narzędzi w trajektorii — bezpośrednio wpływa na karę.

Adaptive threshold l_t

Próg efektywności zacieśniany monotonicznie przez epoki: l_t ← min(l_t, min(T_tol)).

Penalty coefficient λ_t

Współczynnik wagi kary za każde wywołanie narzędzia — kalibruje balans accuracy vs. efektywność.

Implementacja

Implementacje referencyjne

HyperEyes

Python · DeepExperienceAI

Oficjalna

Pułapki implementacyjne

Zbyt agresywne zacieśnianie progu może zatrzymać uczenieŚrednia

Jeśli l_t opada zbyt szybko, model może nie zdążyć nauczyć się alternatywnych krótszych trajektorii i utknąć na niezerowej karze. Wymaga warm-up dla l_t.

Wrażliwość na dobór λ_tŚrednia

Za mała λ_t → kara za wywołania pomijalna, model nie minimalizuje liczby kroków. Za duża → model unika narzędzi nawet gdy są konieczne, accuracy spada.

Reward hacking — model uczy się odmawiać trudnych zapytańŚrednia

Przy bardzo wysokiej karze za wywołania model może preferować szybką niepoprawną odpowiedź (R⁻) zamiast długiej poprawnej. Wymaga R⁻ wyraźnie niższego niż dowolna trajektoria poprawna.