Badacze z XiaoHongShu i University of Cambridge opublikowali 8 maja 2026 pracę opisującą HyperEyes — agenta multimodalnego wyszukiwania, który przetwarza wiele bytów naraz zamiast kolejno. Na sześciu testach porównawczych wersja 30B bije najlepszy porównywalny model open-source o 9,9% przy 5,3 raza mniejszej liczbie rund wywołań narzędzi.
Najważniejsze w skrócie
- HyperEyes-30B: +9,9% accuracy vs najlepszy open-source agent, 5,3× mniej rund narzędzi
- Nowy benchmark IMEB (300 próbek): HyperEyes bije najlepszy drugi model o 64,0%
- Kluczowa innowacja: UGS (Unified Grounded Search) — jedno wywołanie narzędzia obsługuje N bytów równolegle
- Trening dwuetapowy: TRACE (nagrody na poziomie trajektorii) + OPD (korekta na poziomie tokenów z modelu 235B)
- Kod i dane dostępne publicznie na GitHub: github.com/DeepExperienceAI/HyperEyes
Wąskie gardło seryjnego wyszukiwania
Istniejące agenty AI multimodalne mają jeden wspólny problem: gdy zapytanie dotyczy wielu niezależnych bytów (np. sześciu osób na zdjęciu), agent wywołuje narzędzia po kolei — raz na byt. Przy złożonych pytaniach prowadzi to do dziesiątek rund, narastających opóźnień i większego ryzyka błędu. Autorzy HyperEyes nazywają to „N-run bottleneck" — wąskim gardłem N przebiegów.
Porównanie z DeepEyes-V2 (wcześniejszym modelem tego samego laboratorium) dobrze ilustruje skalę problemu. Przy pytaniu wymagającym zidentyfikowania sześciu osób ze zdjęcia i znalezienia konkretnego faktu biograficznego, DeepEyes-V2 potrzebował 12 rund i i tak zwrócił błędną odpowiedź. HyperEyes wydał jedno zunifikowane zapytanie, objął wszystkich sześciu naraz i dał poprawną odpowiedź po zaledwie 3 rundach.
Jedna akcja, wiele bytów: UGS
Centralnym elementem architektury jest zunifikowana przestrzeń akcji — Unified Grounded Search (UGS). Zamiast sekwencji oddzielnych wywołań narzędzi, agent HyperEyes emituje pojedynczą akcję łączącą lokalizację wizualną (visual grounding) i wyszukiwanie dla wszystkich bytów jednocześnie. To przejście od „wyszukiwania głębiej" (seryjnie, wiele kroków) do „wyszukiwania szerzej" (równolegle, jeden krok). Wynik przekłada się bezpośrednio na efektywność: mniej tokenów zużywanych na koordynację, mniej okazji do kumulacji błędów.
Trening: TRACE + OPD
Sam pomysł na równoległą akcję to dopiero połowa rozwiązania — model musi jeszcze nauczyć się go stosować oszczędnie, bez niepotrzebnych kroków. Tu wchodzi dwuetapowy framework treningu, zwany Dual-Grained Efficiency-Aware RL.
TRACE (Tool-use Reference-Adaptive Cost Efficiency) działa na poziomie całej trajektorii. Po każdej rundzie agent ocenia sekwencję: jeśli odpowiedź była poprawna, nagroda jest pomniejszana proporcjonalnie do liczby użytych kroków narzędzi — im mniej kroków, tym wyższa premia. Próg efektywności jest przy tym stopniowo zaostrzany w kolejnych iteracjach, analogicznie do poprzeczki w skoku wzwyż. Model, który kiedyś dostawał nagrodę za 5 kroków, musi docelowo zmieścić się w 3.
OPD (On-Policy Distillation) uzupełnia TRACE o sygnał na poziomie tokenów. Mechanizm aktywuje się wyłącznie dla błędnych trajektorii — wtedy model uczeń dostaje gęsty sygnał korekcyjny z modelu nauczyciela o parametrach 235B, wyrażony jako dywergencja KL między rozkładami tokenów. Dzięki temu model nie traci wcześniej wypracowanych sprawnych zachowań, a jednocześnie poprawia błędy tam, gdzie sam sobie nie radzi.
Pseudokod algorytmu
IMEB — nowy benchmark efektywności multimodalnej
Istniejące testy porównawcze dla agentów multimodalnych mierzą wyłącznie trafność odpowiedzi. Autorzy zauważyli, że to niepełny obraz — model może być celny, ale kosztowny (wiele rund). Dlatego stworzyli IMEB (Image Multi-Entity Benchmark): 300 ręcznie przygotowanych próbek z zadaniami wymagającymi jednoczesnej identyfikacji wielu bytów na obrazie, z dziedzin humanistycznych i naukowych.
Obok samego benchmarku wprowadzili metrykę CAS (Companion Assessment Standard), która mierzy efektywność jako stosunek trafnych zwrotów informacyjnych do liczby użytych kroków narzędzi — coś w rodzaju „przydatna informacja na jeden krok". Wersja 30B HyperEyes osiąga 7,6 raza lepszą efektywność informacyjną niż modele seryjne w tej metryce.
Wyniki na sześciu benchmarkach
Na standardowych testach multimodalnego wyszukiwania HyperEyes-30B osiąga najlepsze wyniki wśród modeli open-source. Przewaga jest największa tam, gdzie liczy się efektywność przy wielu bytach — szczegóły w tabeli poniżej.
| Benchmark | HyperEyes-30B | HyperEyes-235B | Średnio rund narzędzi |
|---|---|---|---|
| MMSearch | 64,1 | — | 1,9 |
| FVQA | 58,0 | — | 1,9 |
| IMEB (wielo-bytowy) | 17,1 | 32,2 | 1,9 |
Testy robustnosci (10 losowych permutacji kolejnosci bytow) potwierdzaja stabilnosc modelu — wyniki w sekcji „Odpornosc na kolejnosc encji” ponizej.
| K (permutacja) | Wynik IMEB | Odchyłka od średniej |
|---|---|---|
| K=1…10 | stabilny | < 1 pkt |
| Średnia | 17,1 | — |
Diagram techniczny
Poniższy diagram pokazuje przepływ przetwarzania w HyperEyes: od wejścia multi-entity przez UGS i równoległe wywołania narzędzi do odpowiedzi, oraz obydwa poziomy treningu (TRACE + OPD) składające się na joint loss.
| Metryka | DeepEyes-V2 | HyperEyes-30B |
|---|---|---|
| Średnia liczba rund narzędzi | 7–10 | 1,9 |
| Trafność na zadaniu wielo-bytowym | niska | wyższa |
| CAS (informacja / krok) | 1,0× | 7,6× |
| Tryb wywołania narzędzi | sekwencyjny | równoległy (UGS) |
| Akumulacja błędu w kolejnych krokach | tak | znacząco mniejsza |
Dlaczego to ważne?
Większość badań nad agentami multimodalnymi skupia się na tym, żeby model był trafniejszy — więcej poprawnych odpowiedzi. HyperEyes przesuwa punkt ciężkości: trafność jest ważna, ale bez kontroli kosztu wnioskowania agent nie nadaje się do zastosowań produkcyjnych. Każde wywołanie narzędzia wiąże się z latencją, kosztem API i ryzykiem błędu akumulowanego w kolejnych krokach.
Platforma XiaoHongShu — chiński serwis łączący media społecznościowe z e-commerce, z ponad 300 milionami miesięcznych użytkowników — ma bezpośredni interes w tym, żeby wyszukiwanie wizualne działało szybko i tanio przy dużej skali. To wyjaśnia, dlaczego efektywność została potraktowana jako „first-class training objective", a nie jako opcjonalna metryka. Podejście UGS może znaleźć zastosowanie wszędzie tam, gdzie zapytania użytkowników dotyczą wielu obiektów naraz: wyszukiwanie produktów wizualnych, analiza dokumentów złożonych, pytania biograficzne, wieloentytyjne rozumowanie medyczne.
Niezależnie od samego modelu, IMEB i metryka CAS to propozycja nowego standardu oceny agentów — pomijającego słabość dotychczasowych benchmarków, które premiowały jedynie trafność, ignorując koszt jej osiągnięcia.
Co dalej?
- Kod i dane treningowe dostępne publicznie (github.com/DeepExperienceAI/HyperEyes) — umożliwia replikację i adaptację przez społeczność open-source
- Benchmark IMEB jest otwarty do porównań; kolejne prace mogą go rozszerzyć o zadania z większą liczbą bytów lub inne domeny (np. wideo, dokumenty wielostronicowe)
- Autorzy sugerują, że integracja HyperEyes z systemami wyszukiwania e-commerce (np. XiaoHongShu) jest naturalnym kolejnym krokiem — choć nie podają konkretnego harmonogramu wdrożenia produkcyjnego

