HyperEyes

30B / 7B

Równoległy agentowy model multimodalny od Xiaohongshu i University of Cambridge, który przetwarza wiele encji jednocześnie zamiast sekwencyjnie — 9,9% lepszy od najlepszego open-source agenta przy 5,3× mniejszej liczbie wywołań narzędzi.

🔬 Research🔬 Research only⚖ Open sourceModel multimodalnyModel używający narzędziModel agentowyModel wzrokowy

Parametry

7B / 30B

parametrów

Data premiery

8 maja 2026

🔬XiaohongshuLab badawczy

Dostęp:DownloadWdrożenie:💻 Lokalnie☁ Cloud

Przegląd

HyperEyes to równoległy agentowy model multimodalny opracowany przez Xiaohongshu (rednote-hilab) oraz University of Cambridge. Rozwiązuje fundamentalny problem istniejących agentów multimodalnych: tzw. "N-run bottleneck", polegający na sekwencyjnym wywoływaniu narzędzi po jednej encji naraz. Dla zapytań wymagających przetworzenia wielu niezależnych encji (np. sześciu osób na zdjęciu) prowadzi to do narastającej liczby rund, rosnącego zużycia tokenów i skumulowanego ryzyka błędów.

Centralną innowacją jest UGS (Unified Grounded Search) — atomowa akcja łącząca visual grounding z pobieraniem danych dla wszystkich encji docelowych w jednym kroku. Zamiast strategii "search deeper" (więcej sekwencyjnych rund), HyperEyes stosuje "search wider": pojedyncze wywołanie obejmuje wszystkie encje równocześnie.

Trening przebiega dwuetapowo: (1) cold-start przez Parallel-Amenable Data Synthesis Pipeline z Progressive Rejection Sampling, (2) Dual-Grained Efficiency-Aware Reinforcement Learning. Komponent TRACE (Tool-use Reference-Adaptive Cost Efficiency) działa na poziomie trajektorii — nagradza poprawne odpowiedzi z karą proporcjonalną do liczby kroków narzędziowych, a próg efektywności jest monotoniczne zaostrzany przez kolejne epoki treningowe. Komponent OPD (On-Policy Distillation) działa na poziomie tokenów — aktywuje się wyłącznie dla nieudanych trajektorii, wstrzykując gęsty sygnał korekcyjny z nauczyciela 235B przez dywergencję KL.

Autorzy wprowadzili też IMEB (Image Multi-Entity Benchmark) — 300 ręcznie zebranych instancji z dziedzin humanistycznych i ścisłych, każda wymagająca jednoczesnej identyfikacji wielu encji z obrazu. Na tym benchmarku HyperEyes-30B przewyższa drugi najlepszy model o 64,0%. Metryka CAS (Companion Assessment Standard) mierzy stosunek użytecznych informacji do kosztu obliczeniowego; HyperEyes-30B osiąga 7,6× lepszą efektywność informacyjną od modeli sekwencyjnych.

Klasyfikacja

Model multimodalnyModel używający narzędziModel agentowyModel wzrokowy

Dostęp i wdrożenie

Pobieranie

LokalnieChmura

Wagi: Open source

Kluczowe parametry

🧩 Parametry: 7B / 30B

✓ Narzędzia · ✓ Fine-tuning

📥 Wejście: tekst, obraz

Specyfikacja techniczna

Parametry

7B / 30B

parametrów

Licencja

CC BY 4.0

Funkcje:✓ Używanie narzędzi✓ Fine-tuning

Modalności

⬇ Wejście (Input)

textimage

⬆ Wyjście (Output)

text

Możliwości i zastosowania

Natywne możliwości modelu

Rozumienie multimodalne

Zdolność modelu do łączenia i interpretowania informacji z więcej niż jednej modalności, np. tekstu i obrazu.

Kategoria: multimodal

Wyniki benchmarków

2 benchmarki

IMEB (Image Multi-Entity Benchmark)

+64.0% vs 2nd best

📄 arXiv:2605.07177

Własny benchmark autorów — 300 ręcznie zebranych instancji wymagających jednoczesnej identyfikacji wielu encji z obrazu. Humanistyka + nauki ścisłe.

6 multimodal search benchmarks (aggregate)

+9.9% accuracy, 5.3× fewer tool-call rounds

📄 arXiv:2605.07177

HyperEyes-30B vs najlepszy porównywalny open-source agent, uśrednione przez 6 benchmarków.

Architektura techniczna

Rdzeń architektury (Core Architecture)

MLMultimodal LLM AAAgentic AI

Forma modelu (Model Form)

MLMultimodal LLM

Techniki trenowania (Training Techniques)

RFRFT SFSFT

Źródła i powiązane strony

2 źródła

PaperHyperEyes: Dual-Grained Efficiency-Aware Reinforcement Learning for Parallel Multimodal Search Agents (arXiv:2605.07177)arxiv.org RepoDeepExperience/HyperEyes — GitHubgithub.com

Przeglądaj powiązane tematy

🧠 Multimodal LLM 🧠 Agentic AI 🧠 Multimodal LLM Wszystkie modele multimodal model Wszystkie modele tool using model