Ocena jakości

GPQA

2023AktywnyOpublikowany

Benchmark 448 pytan na poziomie doktoranckim z biologii, fizyki i chemii – odporny na Google, trudny nawet dla frontier AI (GPT-4: 39% w oryg. papierze).

Kluczowa innowacja

Pierwszy benchmark "odporny na Google" na poziomie doktoranckim, gdzie nawet wysoce wykwalifikowani nieeksperci osiagaja tylko 34% trafnosci po 30 minutach przeszukiwania internetu, testujac gleboka wiedze specjalistyczna modeli AI niemozliwa do znalezienia przez proste wyszukiwanie.

Kategoria

Ocena jakości

Poziom abstrakcji

Pattern

Poziom operacji

Ewaluacja (runtime)

Zastosowania

ewaluacja frontier AIscalable oversight researchtestowanie wiedzy specjalistycznejsafety evaluation

Jak działa

Pytania sa tworzone przez ekspertów dziedzinowych i walidowane przez innych ekspertów oraz nieekspertów. Dla kazdego pytania mierzono dokladnosc ekspertów domenowych, nieekspertów z dostepem do internetu i modeli AI. Format: pytanie wielokrotnego wyboru z 4 opcjami. Benchmark sklada sie z trzech podzbiorów: GPQA Diamond (najciezsze), GPQA Expert (srednie), GPQA Extended.

Rozwiązany problem

Brak benchmarku oceniajacego gleboka wiedze specjalistyczna na poziomie doktoranckim, gdzie typowe modele AI nie moga "obejsc" trudnosci poprzez wyszukiwanie informacji, co jest kluczowe dla badan nad scalable oversight.