Robocikowo>ROBOCIKOWO
Trening

Dual-Grained EA-RL

2026BadawczyOpublikowany
Framework RL trenujący agentów multimodalnych do efektywnego równoległego wyszukiwania przez optymalizację na poziomie trajektorii i tokenów jednocześnie.
Kluczowa innowacja
Łączy nagrodę na poziomie trajektorii (TRACE — adaptacyjna efektywność kosztowa narzędzi) z gęstymi sygnałami korygującymi na poziomie tokenów (On-Policy Distillation) w jednym frameworku RL, czyniąc efektywność inferencji pierwszorzędnym celem treningu agenta.
Kategoria
Trening
Poziom abstrakcji
Pattern
Poziom operacji
Po-treningŚrodowisko agentoweInferencja
Zastosowania
Trenowanie agentów multimodalnych do równoległego wyszukiwania wizualnego i tekstowegoRedukcja kosztów inferencji agentów przy zachowaniu dokładnościSystemy pytań i odpowiedzi wymagające wyszukiwania wielu encji jednocześniePost-training modeli LLM/VLM do efektywnego korzystania z narzędziBenchmarkowanie efektywności agentów (IMEB)

Jak działa

Framework działa w dwóch poziomach: (1) Makro (TRACE): nagroda trajektoryjna r_traj = f(dokładność) − λ · koszt_narzędzi, gdzie λ jest adaptacyjnie zwiększane w trakcie treningu przez mechanizm zaostrzania referencji (Reference Tightening), wymuszając stopniową redukcję liczby wywołań narzędzi bez ograniczania prawdziwego wieloskokowego wyszukiwania. (2) Mikro (On-Policy Distillation): dla rolloutów zakończonych porażką, zewnętrzny model-nauczyciel generuje krok po kroku korekcje na poziomie tokenów; sygnały te są dystylowane do agenta za pomocą straty KL, zapewniając gęste uczenie tam, gdzie nagrody wynikowe są nieinformatywne.

Rozwiązany problem

Agenci multimodalni trenowani wyłącznie na nagrodach wynikowych (rzadkich) mają trudności z przypisaniem zasług i nie optymalizują efektywności inferencji — generują zbędne rundy wywołań narzędzi. Dual-Grained EA-RL rozwiązuje oba problemy jednocześnie przez dwupoziomową optymalizację.

Komponenty

TRACE (Tool-use Reference-Adaptive Cost Efficiency)Makro-poziomowy sygnał nagrody efektywności

Nagroda na poziomie trajektorii, której próg referencyjny jest monotoniczne zaostrzany w trakcie treningu, tłumiąc zbędne wywołania narzędzi.

Oficjalna

On-Policy DistillationMikro-poziomowy sygnał uczenia z gęstym przypisaniem zasług

Injektuje gęste sygnały korekcyjne na poziomie tokenów od zewnętrznego modelu-nauczyciela dla nieudanych rolloutów.

Oficjalna

Reference Tightening MechanismHarmonogram adaptacyjny współczynnika kosztu

Mechanizm adaptacyjnej aktualizacji progu λ — referencja dla TRACE jest zaostrzana po każdej epoce na podstawie aktualnej efektywności agenta.

Oficjalna

Implementacja

Pułapki implementacyjne
Zbyt agresywne zaostrzanie referencjiWysoka

Jeśli λ rośnie zbyt szybko, model może ograniczyć uzasadnione wieloskokowe wyszukiwanie, pogarszając dokładność.

Rozwiązanie:Monitorować dokładność na zbiorze walidacyjnym podczas zaostrzania; stosować harmonogram adaptacyjny zamiast liniowego.
Zależność od silnego modelu-nauczycielaŚrednia

On-Policy Distillation wymaga zewnętrznego nauczyciela — słaby nauczyciel może wprowadzić błędne sygnały korekcyjne.

Rozwiązanie:Stosować nauczyciela istotnie lepszego od ucznia lub filtrować jego korekcje przez próg pewności.

Ewolucja

Oryginalny paper · 2026 · arXiv 2026 · Guankai Li
HyperEyes: Dual-Grained Efficiency-Aware Reinforcement Learning for Parallel Multimodal Search Agents
Guankai Li, Jiabin Chen, Yi Xu, Xichen Zhang, Yuan Lu
2026
Wprowadzenie Dual-Grained EA-RL w systemie HyperEyes
Punkt przełomowy

Papier HyperEyes (arXiv:2605.07177) prezentuje framework jako centralny wkład, osiągając +9,9% dokładności i 5,3× redukcję rund narzędzi względem najsilniejszego open-source agenta.

Hiperparametry (konfigurowalne osie)

λ (koszt narzędzi)Krytyczna

Waga kosztu wywołań narzędzi w nagrodzie TRACE. Zaostrzana adaptacyjnie w trakcie treningu.

Waga KL dystylacjiWysoka

Waga straty KL w On-Policy Distillation — balans między uczeniem od nauczyciela a własną polityką agenta.

Paradygmat wykonania

Tryb główny
conditional
Wzorzec aktywacji
input_dependent
Mechanizm routingu

Mechanizm adaptacyjnego zaostrzania progu referencyjnego dla nagrody TRACE — λ jest monotoniczne zwiększane w trakcie treningu.

Równoległość

Poziom równoległości
fully_parallel
Zakres
traininginference

Wymagania sprzętowe

Trening RL z rolloutem i dystylacją OPD (nauczyciel 235B) wymaga klastra GPU — student 30B + teacher 235B nie mieszczą się na jednej maszynie.