Ocena jakości

CAS

2026BadawczyOpublikowany

Metryka efektywności agentów: poprawnych zwrotów informacji na jedno wywołanie narzędzia.

Kluczowa innowacja

Metryka oceniająca agenty wyszukujące przez stosunek poprawnych zwrotów informacji do liczby wywołań narzędzi — łączy accuracy i efektywność w jedną miarę.

Kategoria

Ocena jakości

Poziom abstrakcji

Primitive

Poziom operacji

Ewaluacja (runtime)

Zastosowania

Ewaluacja efektywności agentów wyszukującychPorównywanie strategii równoległego vs sekwencyjnego wyszukiwaniaOcena kosztu operacyjnego agentów AI w produkcjiOptymalizacja agentów pod kątem minimalizacji wywołań API

Jak działa

CAS = Σ(poprawnych zwrotów informacji) / Σ(wywołań narzędzi) po wszystkich instancjach benchmarku. Wyższy CAS oznacza agenta, który efektywnie korzysta z narzędzi — odpowiada poprawnie przy minimalnej liczbie wywołań. Metryka penalizuje zarówno błędne odpowiedzi (zerowe zwroty), jak i nadmiarowe wywołania (mianownik rośnie).

Rozwiązany problem

Istniejące metryki dla agentów mierzą wyłącznie accuracy — agent, który odpowiada poprawnie po 12 rundach, jest traktowany tak samo jak agent odpowiadający po 3. CAS wprowadza wymiar efektywności: ile użytecznej informacji agent zwraca na każde wywołanie narzędzia.

Implementacja

Pułapki implementacyjne

Binarna ocena poprawności nie uwzględnia częściowych odpowiedziŚrednia

CAS = poprawnych zwrotów / wywołań narzędzi zakłada zero-jedynkową ocenę. Odpowiedź częściowo poprawna (np. 4/6 encji) liczy się jako 0, co może zaniżać CAS modeli dających dobre, lecz niekompletne wyniki.

Metryka nie penalizuje wysokiej latencji per wywołanieŚrednia

CAS liczy liczbę wywołań narzędzi, nie ich czas. Agent wykonujący 3 bardzo wolne wywołania może mieć wyższy CAS niż agent wykonujący 6 szybkich, mimo wyższego łącznego czasu odpowiedzi.

Trudne porównania między benchmarkami z różnymi definicjami narzędziŚrednia

Granularność jednego wywołania narzędzia różni się między systemami — jedno wywołanie UGS może odpowiadać 6 wywołaniom w systemie sekwencyjnym. CAS bez normalizacji granularności narzędzi faworyzuje architektury z grubszymi narzędziami.

Ewolucja

Oryginalny paper · 2026 · arXiv 2026 · Guankai Li

HyperEyes: Dual-Grained Efficiency-Aware Reinforcement Learning for Parallel Multimodal Search Agents

Guankai Li, Jiabin Chen, Yi Xu, Xichen Zhang, Yuan Lu

Źródła

HyperEyes arXiv paper

Paper