Obsługa wielu formatów danych

UGS

2026BadawczyOpublikowany

Atomowa akcja agenta multimodalnego łącząca visual grounding z retrieval dla wielu encji w jednym kroku.

Kluczowa innowacja

Łączy visual grounding i retrieval w jedną atomową akcję obsługującą N encji jednocześnie, zastępując sekwencyjne wywołania narzędzi pojedynczym równoległym zapytaniem.

Kategoria

Obsługa wielu formatów danych

Poziom abstrakcji

Building block

Poziom operacji

Element architekturyInferencjaŚrodowisko agentowe

Zastosowania

Wyszukiwanie wizualne w e-commerce (wiele produktów w jednym obrazie)Analizy dokumentów z wieloma encjami (osoby, miejsca, daty)Agenty do pytań i odpowiedzi na temat złożonych obrazówMultimodalne systemy wyszukiwania informacjiAnaliza treści na platformach społecznościowych (np. XiaoHongShu)

Jak działa

Dla danego zapytania (obraz + pytanie tekstowe) model identyfikuje wszystkie encje wymagające wyszukiwania, generuje dla nich równocześnie bounding boxy (visual grounding) i zapytania retrieval w jednej akcji atomowej. Wyniki z równoległych wyszukiwań są agregowane i model generuje finalną odpowiedź. Przykład: pytanie o 6 osób na zdjęciu → 1 akcja UGS → 6 równoległych wyszukiwań → odpowiedź w 3 rundach zamiast 12.

Rozwiązany problem

Sekwencyjne agenty multimodalne przetwarzają po jednej encji na rundę — dla zapytań z N encjami generuje to N rund wywołań narzędzi, kumulując opóźnienia, koszty tokenów i ryzyko propagacji błędów. UGS eliminuje ten bottleneck.

Implementacja

Implementacje referencyjne

HyperEyes

Python · DeepExperienceAI

Oficjalna

Pułapki implementacyjne

Zbyt szeroki grounding obniża precyzjęŚrednia

Gdy model próbuje jednocześnie zgruntować zbyt wiele encji, bounding boxy mogą nachodzić na siebie lub obejmować błędne regiony obrazu, co degraduje jakość retrieval.

Zależność od jakości visual grounding modelu bazowegoŚrednia

UGS jest tak dobry jak visual grounding modelu bazowego — słaby grounding na złożonych obrazach (tłumy, małe obiekty) bezpośrednio przekłada się na błędne zapytania retrieval.

Równoległe wywołania narzędzi zwiększają koszt per rundęŚrednia

Jedna akcja UGS wyzwala N równoległych wywołań narzędzi — dla zapytań z wieloma encjami koszt pojedynczej rundy jest wyższy niż w agencie sekwencyjnym, choć łączna liczba rund jest niższa.

Ewolucja

Oryginalny paper · 2026 · arXiv 2026 · Guankai Li

HyperEyes: Dual-Grained Efficiency-Aware Reinforcement Learning for Parallel Multimodal Search Agents

Guankai Li, Jiabin Chen, Yi Xu, Xichen Zhang, Yuan Lu

Źródła

HyperEyes arXiv paper

Paper

UGS

Jak działa

Rozwiązany problem

Implementacja

Ewolucja

Źródła

Paradygmat wykonania

Równoległość

Wymagania sprzętowe