Robocikowo>ROBOCIKOWO
HyperEyes

HyperEyes

30B / 7B
Równoległy agentowy model multimodalny od Xiaohongshu i University of Cambridge, który przetwarza wiele encji jednocześnie zamiast sekwencyjnie — 9,9% lepszy od najlepszego open-source agenta przy 5,3× mniejszej liczbie wywołań narzędzi.
🔬 Research🔬 Research only⚖ Open sourceModel multimodalnyModel używający narzędziModel agentowyModel wzrokowy
Parametry
7B / 30B
parametrów
Data premiery
8 maja 2026
Dostęp:DownloadWdrożenie:💻 Lokalnie☁ Cloud

Przegląd

HyperEyes to równoległy agentowy model multimodalny opracowany przez Xiaohongshu (rednote-hilab) oraz University of Cambridge. Rozwiązuje fundamentalny problem istniejących agentów multimodalnych: tzw. "N-run bottleneck", polegający na sekwencyjnym wywoływaniu narzędzi po jednej encji naraz. Dla zapytań wymagających przetworzenia wielu niezależnych encji (np. sześciu osób na zdjęciu) prowadzi to do narastającej liczby rund, rosnącego zużycia tokenów i skumulowanego ryzyka błędów.

Centralną innowacją jest UGS (Unified Grounded Search) — atomowa akcja łącząca visual grounding z pobieraniem danych dla wszystkich encji docelowych w jednym kroku. Zamiast strategii "search deeper" (więcej sekwencyjnych rund), HyperEyes stosuje "search wider": pojedyncze wywołanie obejmuje wszystkie encje równocześnie.

Trening przebiega dwuetapowo: (1) cold-start przez Parallel-Amenable Data Synthesis Pipeline z Progressive Rejection Sampling, (2) Dual-Grained Efficiency-Aware Reinforcement Learning. Komponent TRACE (Tool-use Reference-Adaptive Cost Efficiency) działa na poziomie trajektorii — nagradza poprawne odpowiedzi z karą proporcjonalną do liczby kroków narzędziowych, a próg efektywności jest monotoniczne zaostrzany przez kolejne epoki treningowe. Komponent OPD (On-Policy Distillation) działa na poziomie tokenów — aktywuje się wyłącznie dla nieudanych trajektorii, wstrzykując gęsty sygnał korekcyjny z nauczyciela 235B przez dywergencję KL.

Autorzy wprowadzili też IMEB (Image Multi-Entity Benchmark) — 300 ręcznie zebranych instancji z dziedzin humanistycznych i ścisłych, każda wymagająca jednoczesnej identyfikacji wielu encji z obrazu. Na tym benchmarku HyperEyes-30B przewyższa drugi najlepszy model o 64,0%. Metryka CAS (Companion Assessment Standard) mierzy stosunek użytecznych informacji do kosztu obliczeniowego; HyperEyes-30B osiąga 7,6× lepszą efektywność informacyjną od modeli sekwencyjnych.

Klasyfikacja
Model multimodalnyModel używający narzędziModel agentowyModel wzrokowy
Dostęp i wdrożenie
Pobieranie
LokalnieChmura
Wagi: Open source
Kluczowe parametry
🧩 Parametry: 7B / 30B
Narzędzia · ✓ Fine-tuning
📥 Wejście: tekst, obraz

Specyfikacja techniczna

Parametry
7B / 30B
parametrów
Licencja
CC BY 4.0
Funkcje:Używanie narzędziFine-tuning
Modalności
⬇ Wejście (Input)
textimage
⬆ Wyjście (Output)
text

Możliwości i zastosowania

Natywne możliwości modelu
Rozumienie multimodalne
Zdolność modelu do łączenia i interpretowania informacji z więcej niż jednej modalności, np. tekstu i obrazu.
Kategoria: multimodal

Wyniki benchmarków

2 benchmarki
IMEB (Image Multi-Entity Benchmark)
+64.0% vs 2nd best
📄 arXiv:2605.07177
Własny benchmark autorów — 300 ręcznie zebranych instancji wymagających jednoczesnej identyfikacji wielu encji z obrazu. Humanistyka + nauki ścisłe.
6 multimodal search benchmarks (aggregate)
+9.9% accuracy, 5.3× fewer tool-call rounds
📄 arXiv:2605.07177
HyperEyes-30B vs najlepszy porównywalny open-source agent, uśrednione przez 6 benchmarków.

Architektura techniczna

Rdzeń architektury (Core Architecture)
Forma modelu (Model Form)
Techniki trenowania (Training Techniques)