Trening

Dual-Grained EA-RL

2026BadawczyOpublikowany

Framework RL trenujący agentów multimodalnych do efektywnego równoległego wyszukiwania przez optymalizację na poziomie trajektorii i tokenów jednocześnie.

Kluczowa innowacja

Łączy nagrodę na poziomie trajektorii (TRACE — adaptacyjna efektywność kosztowa narzędzi) z gęstymi sygnałami korygującymi na poziomie tokenów (On-Policy Distillation) w jednym frameworku RL, czyniąc efektywność inferencji pierwszorzędnym celem treningu agenta.

Kategoria

Trening

Poziom abstrakcji

Wzorzec

Poziom operacji

Po-treningŚrodowisko agentoweInferencja

Zastosowania

Trenowanie agentów multimodalnych do równoległego wyszukiwania wizualnego i tekstowegoRedukcja kosztów inferencji agentów przy zachowaniu dokładnościSystemy pytań i odpowiedzi wymagające wyszukiwania wielu encji jednocześniePost-training modeli LLM/VLM do efektywnego korzystania z narzędziBenchmarkowanie efektywności agentów (IMEB)

Jak działa

Framework działa w dwóch poziomach: (1) Makro (TRACE): nagroda trajektoryjna r_traj = f(dokładność) − λ · koszt_narzędzi, gdzie λ jest adaptacyjnie zwiększane w trakcie treningu przez mechanizm zaostrzania referencji (Reference Tightening), wymuszając stopniową redukcję liczby wywołań narzędzi bez ograniczania prawdziwego wieloskokowego wyszukiwania. (2) Mikro (On-Policy Distillation): dla rolloutów zakończonych porażką, zewnętrzny model-nauczyciel generuje krok po kroku korekcje na poziomie tokenów; sygnały te są dystylowane do agenta za pomocą straty KL, zapewniając gęste uczenie tam, gdzie nagrody wynikowe są nieinformatywne.

Rozwiązany problem

Agenci multimodalni trenowani wyłącznie na nagrodach wynikowych (rzadkich) mają trudności z przypisaniem zasług i nie optymalizują efektywności inferencji — generują zbędne rundy wywołań narzędzi. Dual-Grained EA-RL rozwiązuje oba problemy jednocześnie przez dwupoziomową optymalizację.

Komponenty

TRACE (Tool-use Reference-Adaptive Cost Efficiency)Makro-poziomowy sygnał nagrody efektywności

Nagroda na poziomie trajektorii, której próg referencyjny jest monotoniczne zaostrzany w trakcie treningu, tłumiąc zbędne wywołania narzędzi.

Oficjalna

On-Policy DistillationMikro-poziomowy sygnał uczenia z gęstym przypisaniem zasług

Injektuje gęste sygnały korekcyjne na poziomie tokenów od zewnętrznego modelu-nauczyciela dla nieudanych rolloutów.

Oficjalna

Reference Tightening MechanismHarmonogram adaptacyjny współczynnika kosztu

Mechanizm adaptacyjnej aktualizacji progu λ — referencja dla TRACE jest zaostrzana po każdej epoce na podstawie aktualnej efektywności agenta.

Oficjalna

Implementacja

Implementacje referencyjne

HyperEyes

Python · DeepExperience

Oficjalna

Pułapki implementacyjne

Zbyt agresywne zaostrzanie referencjiWysoka

Jeśli λ rośnie zbyt szybko, model może ograniczyć uzasadnione wieloskokowe wyszukiwanie, pogarszając dokładność.

Rozwiązanie:Monitorować dokładność na zbiorze walidacyjnym podczas zaostrzania; stosować harmonogram adaptacyjny zamiast liniowego.

Zależność od silnego modelu-nauczycielaŚrednia

On-Policy Distillation wymaga zewnętrznego nauczyciela — słaby nauczyciel może wprowadzić błędne sygnały korekcyjne.

Rozwiązanie:Stosować nauczyciela istotnie lepszego od ucznia lub filtrować jego korekcje przez próg pewności.

Ewolucja

Oryginalny paper · 2026 · arXiv 2026 · Guankai Li

HyperEyes: Dual-Grained Efficiency-Aware Reinforcement Learning for Parallel Multimodal Search Agents

Guankai Li, Jiabin Chen, Yi Xu, Xichen Zhang, Yuan Lu

2026

Wprowadzenie Dual-Grained EA-RL w systemie HyperEyes

Punkt przełomowy

Papier HyperEyes (arXiv:2605.07177) prezentuje framework jako centralny wkład, osiągając +9,9% dokładności i 5,3× redukcję rund narzędzi względem najsilniejszego open-source agenta.