GPQA
Jak działa
Pytania sa tworzone przez ekspertów dziedzinowych i walidowane przez innych ekspertów oraz nieekspertów. Dla kazdego pytania mierzono dokladnosc ekspertów domenowych, nieekspertów z dostepem do internetu i modeli AI. Format: pytanie wielokrotnego wyboru z 4 opcjami. Benchmark sklada sie z trzech podzbiorów: GPQA Diamond (najciezsze), GPQA Expert (srednie), GPQA Extended.
Rozwiązany problem
Brak benchmarku oceniajacego gleboka wiedze specjalistyczna na poziomie doktoranckim, gdzie typowe modele AI nie moga "obejsc" trudnosci poprzez wyszukiwanie informacji, co jest kluczowe dla badan nad scalable oversight.
Implementacja
Maly rozmiar zbioru moze powodowac wysoka wariancje wynikow pomiedzy przebiegami.
Wyniki na GPQA Diamond vs Extended roznia sie znacznie; podawanie wyniku bez podania podzbioru jest mylaace.
Ewolucja
Rein et al. prezentuja 448 pytan doktoranckich; GPT-4 osiaga 39%, nieeksperci 34%.
GPT-4o, Claude 3 Opus i Gemini Ultra raportuja wyniki na GPQA Diamond jako miarę frontier capabilities.
Szczegóły techniczne
Wymagania sprzętowe
Benchmark tekstowy niezalezny od sprzetu ewaluacyjnego.