Robocikowo>ROBOCIKOWO
Obsługa wielu formatów danych

UGS

2026BadawczyOpublikowany
Atomowa akcja agenta multimodalnego łącząca visual grounding z retrieval dla wielu encji w jednym kroku.
Kluczowa innowacja
Łączy visual grounding i retrieval w jedną atomową akcję obsługującą N encji jednocześnie, zastępując sekwencyjne wywołania narzędzi pojedynczym równoległym zapytaniem.
Kategoria
Obsługa wielu formatów danych
Poziom abstrakcji
Building block
Poziom operacji
Element architekturyInferencjaŚrodowisko agentowe
Zastosowania
Wyszukiwanie wizualne w e-commerce (wiele produktów w jednym obrazie)Analizy dokumentów z wieloma encjami (osoby, miejsca, daty)Agenty do pytań i odpowiedzi na temat złożonych obrazówMultimodalne systemy wyszukiwania informacjiAnaliza treści na platformach społecznościowych (np. XiaoHongShu)

Jak działa

Dla danego zapytania (obraz + pytanie tekstowe) model identyfikuje wszystkie encje wymagające wyszukiwania, generuje dla nich równocześnie bounding boxy (visual grounding) i zapytania retrieval w jednej akcji atomowej. Wyniki z równoległych wyszukiwań są agregowane i model generuje finalną odpowiedź. Przykład: pytanie o 6 osób na zdjęciu → 1 akcja UGS → 6 równoległych wyszukiwań → odpowiedź w 3 rundach zamiast 12.

Rozwiązany problem

Sekwencyjne agenty multimodalne przetwarzają po jednej encji na rundę — dla zapytań z N encjami generuje to N rund wywołań narzędzi, kumulując opóźnienia, koszty tokenów i ryzyko propagacji błędów. UGS eliminuje ten bottleneck.

Implementacja

Pułapki implementacyjne
Zbyt szeroki grounding obniża precyzjęŚrednia

Gdy model próbuje jednocześnie zgruntować zbyt wiele encji, bounding boxy mogą nachodzić na siebie lub obejmować błędne regiony obrazu, co degraduje jakość retrieval.

Zależność od jakości visual grounding modelu bazowegoŚrednia

UGS jest tak dobry jak visual grounding modelu bazowego — słaby grounding na złożonych obrazach (tłumy, małe obiekty) bezpośrednio przekłada się na błędne zapytania retrieval.

Równoległe wywołania narzędzi zwiększają koszt per rundęŚrednia

Jedna akcja UGS wyzwala N równoległych wywołań narzędzi — dla zapytań z wieloma encjami koszt pojedynczej rundy jest wyższy niż w agencie sekwencyjnym, choć łączna liczba rund jest niższa.

Paradygmat wykonania

Tryb główny
sparse
Wzorzec aktywacji
input_dependent

Równoległość

Poziom równoległości
fully_parallel
Zakres
inference

Wymagania sprzętowe

Równoległe przetwarzanie visual grounding i retrieval dla N encji wymaga GPU do efektywnej inferencji modelu multimodalnego.