Ocena jakości

AGIEval

2023AktywnyOpublikowany

Benchmark oparty na rzeczywistych egzaminach kwalifikacyjnych dla ludzi (SAT, LSAT, matura, olimpiady matematyczne) oceniajacy modele fundamentowe w kontekscie ludzko-centrycznym.

Kluczowa innowacja

Pierwszy benchmark zakorzeniony w rzeczywistych egzaminach kwalifikacyjnych dla ludzi (matura, LSAT, SAT, olimpiady matematyczne, egzaminy radcowskie) zamiast sztucznie skonstruowanych zadan, pozwalajacy oceniac modele AI w kontekscie zadan majacych realne znaczenie dla spoleczenstwa.

Kategoria

Ocena jakości

Poziom abstrakcji

Wzorzec

Poziom operacji

Ewaluacja (runtime)

Zastosowania

ewaluacja modeli fundamentowychporównanie AI vs czlowiektestowanie wiedzy i rozumowaniaewaluacja dwujezyczna

Jak działa

Zbior zawiera pytania z oficjalnych egzaminów, pogrupowane wedlug typów: pytania wielokrotnego wyboru (MC), pytania z freetext, zadania matematyczne. Modele sa oceniane zarówno zero-shot jak i few-shot. Wyniki sa porównywane ze srednía ludzka dla kazdego egzaminu.

Rozwiązany problem

Sztuczne benchmarki nie odzwierciedlaja trudnosci zadan, z jakimi modele AI moga sie spotykac w rzeczywistym zastosowaniu. AGIEval umieszcza ewaluacje w kontekscie ludzkiego poznania i decyzji poprzez uzycie egzaminów uzywanych do oceny kompetencji ludzi.