Dual-Grained EA-RL
Jak działa
Framework działa w dwóch poziomach: (1) Makro (TRACE): nagroda trajektoryjna r_traj = f(dokładność) − λ · koszt_narzędzi, gdzie λ jest adaptacyjnie zwiększane w trakcie treningu przez mechanizm zaostrzania referencji (Reference Tightening), wymuszając stopniową redukcję liczby wywołań narzędzi bez ograniczania prawdziwego wieloskokowego wyszukiwania. (2) Mikro (On-Policy Distillation): dla rolloutów zakończonych porażką, zewnętrzny model-nauczyciel generuje krok po kroku korekcje na poziomie tokenów; sygnały te są dystylowane do agenta za pomocą straty KL, zapewniając gęste uczenie tam, gdzie nagrody wynikowe są nieinformatywne.
Rozwiązany problem
Agenci multimodalni trenowani wyłącznie na nagrodach wynikowych (rzadkich) mają trudności z przypisaniem zasług i nie optymalizują efektywności inferencji — generują zbędne rundy wywołań narzędzi. Dual-Grained EA-RL rozwiązuje oba problemy jednocześnie przez dwupoziomową optymalizację.
Komponenty
Nagroda na poziomie trajektorii, której próg referencyjny jest monotoniczne zaostrzany w trakcie treningu, tłumiąc zbędne wywołania narzędzi.
Oficjalna
Injektuje gęste sygnały korekcyjne na poziomie tokenów od zewnętrznego modelu-nauczyciela dla nieudanych rolloutów.
Oficjalna
Mechanizm adaptacyjnej aktualizacji progu λ — referencja dla TRACE jest zaostrzana po każdej epoce na podstawie aktualnej efektywności agenta.
Oficjalna
Implementacja
Jeśli λ rośnie zbyt szybko, model może ograniczyć uzasadnione wieloskokowe wyszukiwanie, pogarszając dokładność.
On-Policy Distillation wymaga zewnętrznego nauczyciela — słaby nauczyciel może wprowadzić błędne sygnały korekcyjne.
Ewolucja
Papier HyperEyes (arXiv:2605.07177) prezentuje framework jako centralny wkład, osiągając +9,9% dokładności i 5,3× redukcję rund narzędzi względem najsilniejszego open-source agenta.
Hiperparametry (konfigurowalne osie)
Waga kosztu wywołań narzędzi w nagrodzie TRACE. Zaostrzana adaptacyjnie w trakcie treningu.
Waga straty KL w On-Policy Distillation — balans między uczeniem od nauczyciela a własną polityką agenta.
Paradygmat wykonania
Mechanizm adaptacyjnego zaostrzania progu referencyjnego dla nagrody TRACE — λ jest monotoniczne zwiększane w trakcie treningu.
Równoległość
Wymagania sprzętowe
Trening RL z rolloutem i dystylacją OPD (nauczyciel 235B) wymaga klastra GPU — student 30B + teacher 235B nie mieszczą się na jednej maszynie.