Robocikowo>ROBOCIKOWO
Trening

TRACE

2026BadawczyOpublikowany
Funkcja nagrody RL premiująca dokładność i karząca nadmiarowe wywołania narzędzi, z adaptacyjnie zacieśnianym progiem efektywności.
Kluczowa innowacja
Nagroda na poziomie trajektorii penalizująca liczbę wywołań narzędzi, z progiem efektywności zacieśnianym monotonicznie przez epoki treningu — wymusza naukę coraz krótszych trajektorii dla tego samego zadania.
Kategoria
Trening
Poziom abstrakcji
Building block
Poziom operacji
Po-treningTrening
Zastosowania
Trening agentów wielomodalnych z wieloma wywołaniami narzędzi (HyperEyes)Optymalizacja kosztu inferencji w agentach produkcyjnychTrening modeli rozumowania ograniczających długość Chain-of-ThoughtRL dla agentów z dostępem do narzędzi (web search, code interpreter)Reinforcement Fine-Tuning z budżetem obliczeniowym

Jak działa

Po każdym rolloutem τ: (1) ocena poprawności acc ∈ {0,1}; (2) zliczenie liczby wywołań narzędzi t_s = TurnCount(τ); (3) jeśli acc==1: R_trace = R⁺ − λ_t · t_s (premia za poprawność minus kara za każde wywołanie); jeśli acc==0: R_trace = R⁻ (stała kara); (4) na koniec epoki próg l_t aktualizowany do min z dotychczasowego l_t oraz minimalnej liczby kroków wśród poprawnych trajektorii w epoce. Mechanizm "raising the bar" sukcesywnie zacieśnia kryterium efektywności — model nie może odpoczywać na osiągniętym poziomie.

Rozwiązany problem

Klasyczne reward shaping w RL nagradza wyłącznie poprawność odpowiedzi — nie ma sygnału ograniczającego liczbę wywołań narzędzi. Agent może wyuczyć się odpowiadać poprawnie, ale po nadmiarowej liczbie rund, co generuje wysokie koszty inferencji w produkcji. TRACE wprowadza efektywność jako pełnoprawny cel treningu, a adaptacyjny próg zapobiega stagnacji optymalizacji.

Komponenty

Trajectory accuracy evaluator

Funkcja oceniająca poprawność końcowej odpowiedzi po pełnym rolloutem (binarnie 0/1).

Tool-call counter

Licznik wywołań narzędzi w trajektorii — bezpośrednio wpływa na karę.

Adaptive threshold l_t

Próg efektywności zacieśniany monotonicznie przez epoki: l_t ← min(l_t, min(T_tol)).

Penalty coefficient λ_t

Współczynnik wagi kary za każde wywołanie narzędzia — kalibruje balans accuracy vs. efektywność.

Implementacja

Pułapki implementacyjne
Zbyt agresywne zacieśnianie progu może zatrzymać uczenieŚrednia

Jeśli l_t opada zbyt szybko, model może nie zdążyć nauczyć się alternatywnych krótszych trajektorii i utknąć na niezerowej karze. Wymaga warm-up dla l_t.

Wrażliwość na dobór λ_tŚrednia

Za mała λ_t → kara za wywołania pomijalna, model nie minimalizuje liczby kroków. Za duża → model unika narzędzi nawet gdy są konieczne, accuracy spada.

Reward hacking — model uczy się odmawiać trudnych zapytańŚrednia

Przy bardzo wysokiej karze za wywołania model może preferować szybką niepoprawną odpowiedź (R⁻) zamiast długiej poprawnej. Wymaga R⁻ wyraźnie niższego niż dowolna trajektoria poprawna.

Paradygmat wykonania

Tryb główny
sparse
Wzorzec aktywacji
stage_dependent

Równoległość

Poziom równoległości
fully_parallel
Zakres
trainingacross_devices

Wymagania sprzętowe

TRACE jako część RL pipeline wymaga GPU do równoległych rolloutów agenta — wiele trajektorii na raz dla stabilnej estymacji gradientu policy.