Zbior zawiera pytania z oficjalnych egzaminów, pogrupowane wedlug typów: pytania wielokrotnego wyboru (MC), pytania z freetext, zadania matematyczne. Modele sa oceniane zarówno zero-shot jak i few-shot. Wyniki sa porównywane ze srednía ludzka dla kazdego egzaminu.
Sztuczne benchmarki nie odzwierciedlaja trudnosci zadan, z jakimi modele AI moga sie spotykac w rzeczywistym zastosowaniu. AGIEval umieszcza ewaluacje w kontekscie ludzkiego poznania i decyzji poprzez uzycie egzaminów uzywanych do oceny kompetencji ludzi.
Czesd zadan jest w jezyku chinskim, co moze wykrzywicd wyniki modeli slabszych w tym jezyku.
Zhong et al. z Microsoft Research prezentuje benchmark egzaminów kwalifikacyjnych. GPT-4 przekracza srednia ludzka na SAT i LSAT.
Benchmark tekstowy niezalezny od sprzetu.