UGS
Jak działa
Dla danego zapytania (obraz + pytanie tekstowe) model identyfikuje wszystkie encje wymagające wyszukiwania, generuje dla nich równocześnie bounding boxy (visual grounding) i zapytania retrieval w jednej akcji atomowej. Wyniki z równoległych wyszukiwań są agregowane i model generuje finalną odpowiedź. Przykład: pytanie o 6 osób na zdjęciu → 1 akcja UGS → 6 równoległych wyszukiwań → odpowiedź w 3 rundach zamiast 12.
Rozwiązany problem
Sekwencyjne agenty multimodalne przetwarzają po jednej encji na rundę — dla zapytań z N encjami generuje to N rund wywołań narzędzi, kumulując opóźnienia, koszty tokenów i ryzyko propagacji błędów. UGS eliminuje ten bottleneck.
Implementacja
Gdy model próbuje jednocześnie zgruntować zbyt wiele encji, bounding boxy mogą nachodzić na siebie lub obejmować błędne regiony obrazu, co degraduje jakość retrieval.
UGS jest tak dobry jak visual grounding modelu bazowego — słaby grounding na złożonych obrazach (tłumy, małe obiekty) bezpośrednio przekłada się na błędne zapytania retrieval.
Jedna akcja UGS wyzwala N równoległych wywołań narzędzi — dla zapytań z wieloma encjami koszt pojedynczej rundy jest wyższy niż w agencie sekwencyjnym, choć łączna liczba rund jest niższa.
Paradygmat wykonania
Równoległość
Wymagania sprzętowe
Równoległe przetwarzanie visual grounding i retrieval dla N encji wymaga GPU do efektywnej inferencji modelu multimodalnego.