CAS
Jak działa
CAS = Σ(poprawnych zwrotów informacji) / Σ(wywołań narzędzi) po wszystkich instancjach benchmarku. Wyższy CAS oznacza agenta, który efektywnie korzysta z narzędzi — odpowiada poprawnie przy minimalnej liczbie wywołań. Metryka penalizuje zarówno błędne odpowiedzi (zerowe zwroty), jak i nadmiarowe wywołania (mianownik rośnie).
Rozwiązany problem
Istniejące metryki dla agentów mierzą wyłącznie accuracy — agent, który odpowiada poprawnie po 12 rundach, jest traktowany tak samo jak agent odpowiadający po 3. CAS wprowadza wymiar efektywności: ile użytecznej informacji agent zwraca na każde wywołanie narzędzia.
Implementacja
CAS = poprawnych zwrotów / wywołań narzędzi zakłada zero-jedynkową ocenę. Odpowiedź częściowo poprawna (np. 4/6 encji) liczy się jako 0, co może zaniżać CAS modeli dających dobre, lecz niekompletne wyniki.
CAS liczy liczbę wywołań narzędzi, nie ich czas. Agent wykonujący 3 bardzo wolne wywołania może mieć wyższy CAS niż agent wykonujący 6 szybkich, mimo wyższego łącznego czasu odpowiedzi.
Granularność jednego wywołania narzędzia różni się między systemami — jedno wywołanie UGS może odpowiadać 6 wywołaniom w systemie sekwencyjnym. CAS bez normalizacji granularności narzędzi faworyzuje architektury z grubszymi narzędziami.