Robocikowo>ROBOCIKOWO
Ocena jakości

CAS

2026BadawczyOpublikowany
Metryka efektywności agentów: poprawnych zwrotów informacji na jedno wywołanie narzędzia.
Kluczowa innowacja
Metryka oceniająca agenty wyszukujące przez stosunek poprawnych zwrotów informacji do liczby wywołań narzędzi — łączy accuracy i efektywność w jedną miarę.
Kategoria
Ocena jakości
Poziom abstrakcji
Primitive
Poziom operacji
Ewaluacja (runtime)
Zastosowania
Ewaluacja efektywności agentów wyszukującychPorównywanie strategii równoległego vs sekwencyjnego wyszukiwaniaOcena kosztu operacyjnego agentów AI w produkcjiOptymalizacja agentów pod kątem minimalizacji wywołań API

Jak działa

CAS = Σ(poprawnych zwrotów informacji) / Σ(wywołań narzędzi) po wszystkich instancjach benchmarku. Wyższy CAS oznacza agenta, który efektywnie korzysta z narzędzi — odpowiada poprawnie przy minimalnej liczbie wywołań. Metryka penalizuje zarówno błędne odpowiedzi (zerowe zwroty), jak i nadmiarowe wywołania (mianownik rośnie).

Rozwiązany problem

Istniejące metryki dla agentów mierzą wyłącznie accuracy — agent, który odpowiada poprawnie po 12 rundach, jest traktowany tak samo jak agent odpowiadający po 3. CAS wprowadza wymiar efektywności: ile użytecznej informacji agent zwraca na każde wywołanie narzędzia.

Implementacja

Pułapki implementacyjne
Binarna ocena poprawności nie uwzględnia częściowych odpowiedziŚrednia

CAS = poprawnych zwrotów / wywołań narzędzi zakłada zero-jedynkową ocenę. Odpowiedź częściowo poprawna (np. 4/6 encji) liczy się jako 0, co może zaniżać CAS modeli dających dobre, lecz niekompletne wyniki.

Metryka nie penalizuje wysokiej latencji per wywołanieŚrednia

CAS liczy liczbę wywołań narzędzi, nie ich czas. Agent wykonujący 3 bardzo wolne wywołania może mieć wyższy CAS niż agent wykonujący 6 szybkich, mimo wyższego łącznego czasu odpowiedzi.

Trudne porównania między benchmarkami z różnymi definicjami narzędziŚrednia

Granularność jednego wywołania narzędzia różni się między systemami — jedno wywołanie UGS może odpowiadać 6 wywołaniom w systemie sekwencyjnym. CAS bez normalizacji granularności narzędzi faworyzuje architektury z grubszymi narzędziami.