
Równoległy agentowy model multimodalny od Xiaohongshu i University of Cambridge, który przetwarza wiele encji jednocześnie zamiast sekwencyjnie — 9,9% lepszy od najlepszego open-source agenta przy 5,3× mniejszej liczbie wywołań narzędzi.
🔬 Research🔬 Research only⚖ Open sourceModel multimodalnyModel używający narzędziModel agentowyModel wzrokowy
Parametry
7B / 30B
parametrów
Data premiery
8 maja 2026
Dostęp:DownloadWdrożenie:💻 Lokalnie☁ Cloud
Przegląd
Klasyfikacja
Model multimodalnyModel używający narzędziModel agentowyModel wzrokowy
Dostęp i wdrożenie
Pobieranie
LokalnieChmura
Wagi: Open source
Kluczowe parametry
🧩 Parametry: 7B / 30B
✓ Narzędzia · ✓ Fine-tuning
📥 Wejście: tekst, obraz
Specyfikacja techniczna
Parametry
7B / 30B
parametrów
Licencja
CC BY 4.0
Funkcje:✓ Używanie narzędzi✓ Fine-tuning
Modalności
⬇ Wejście (Input)
textimage
⬆ Wyjście (Output)
text
Możliwości i zastosowania
Natywne możliwości modelu
Rozumienie multimodalne
Zdolność modelu do łączenia i interpretowania informacji z więcej niż jednej modalności, np. tekstu i obrazu.
Kategoria: multimodal
Wyniki benchmarków
2 benchmarki
IMEB (Image Multi-Entity Benchmark)
+64.0% vs 2nd best
📄 arXiv:2605.07177
Własny benchmark autorów — 300 ręcznie zebranych instancji wymagających jednoczesnej identyfikacji wielu encji z obrazu. Humanistyka + nauki ścisłe.
6 multimodal search benchmarks (aggregate)
+9.9% accuracy, 5.3× fewer tool-call rounds
📄 arXiv:2605.07177
HyperEyes-30B vs najlepszy porównywalny open-source agent, uśrednione przez 6 benchmarków.
Architektura techniczna
Rdzeń architektury (Core Architecture)
Forma modelu (Model Form)