IMEB
Jak działa
Każda instancja IMEB to obraz z pytaniem wymagającym identyfikacji wielu encji jednocześnie (np. 6 osób, wiele produktów, wiele obiektów naukowych). Oceniany jest: (1) accuracy — czy odpowiedź jest poprawna; (2) liczba rund wywołań narzędzi; (3) CAS = poprawnych zwrotów informacji / liczba wywołań narzędzi. HyperEyes-30B osiąga na IMEB 64,0% przewagi nad drugim najlepszym modelem.
Rozwiązany problem
Benchmarki dla agentów multimodalnych nagradzają wyłącznie dokładność, pomijając koszt inferencji. Agent, który odpowiada poprawnie po 12 rundach wywołań narzędzi, jest traktowany tak samo jak agent odpowiadający po 3 rundach. IMEB wprowadza efektywność jako mierzalny wymiar jakości.
Implementacja
Benchmark składa się z 300 instancji — różnice między modelami rzędu kilku punktów procentowych mogą nie być statystycznie istotne. Zaleca się bootstrap confidence intervals przy porównaniach.
Instancje IMEB różnią się liczbą encji do identyfikacji. Modele lepiej radzące sobie z małą liczbą encji mogą wypadać lepiej na zbiorze nie dlatego, że są bardziej równoległe, lecz dlatego, że trafiają na łatwiejsze instancje.
Metryka CAS zakłada binarną ocenę poprawności zwróconej informacji. W praktyce odpowiedzi mogą być częściowo poprawne, co wymaga jasnych reguł gradacji — brak ich standaryzacji utrudnia porównania między implementacjami.