Robocikowo>ROBOCIKOWO
Ocena jakości

GPQA

2023AktywnyOpublikowany
Benchmark 448 pytan na poziomie doktoranckim z biologii, fizyki i chemii – odporny na Google, trudny nawet dla frontier AI (GPT-4: 39% w oryg. papierze).
Kluczowa innowacja
Pierwszy benchmark "odporny na Google" na poziomie doktoranckim, gdzie nawet wysoce wykwalifikowani nieeksperci osiagaja tylko 34% trafnosci po 30 minutach przeszukiwania internetu, testujac gleboka wiedze specjalistyczna modeli AI niemozliwa do znalezienia przez proste wyszukiwanie.
Kategoria
Ocena jakości
Poziom abstrakcji
Pattern
Poziom operacji
Ewaluacja (runtime)
Zastosowania
ewaluacja frontier AIscalable oversight researchtestowanie wiedzy specjalistycznejsafety evaluation

Jak działa

Pytania sa tworzone przez ekspertów dziedzinowych i walidowane przez innych ekspertów oraz nieekspertów. Dla kazdego pytania mierzono dokladnosc ekspertów domenowych, nieekspertów z dostepem do internetu i modeli AI. Format: pytanie wielokrotnego wyboru z 4 opcjami. Benchmark sklada sie z trzech podzbiorów: GPQA Diamond (najciezsze), GPQA Expert (srednie), GPQA Extended.

Rozwiązany problem

Brak benchmarku oceniajacego gleboka wiedze specjalistyczna na poziomie doktoranckim, gdzie typowe modele AI nie moga "obejsc" trudnosci poprzez wyszukiwanie informacji, co jest kluczowe dla badan nad scalable oversight.

Implementacja

Pułapki implementacyjne
Male rozmiary zbioru (448 pytan)Średnia

Maly rozmiar zbioru moze powodowac wysoka wariancje wynikow pomiedzy przebiegami.

Rozwiązanie:Uruchamiaj wiele prób i raportuj przedialy ufnosci.
Kluczowe rozroznienie podzbiorowWysoka

Wyniki na GPQA Diamond vs Extended roznia sie znacznie; podawanie wyniku bez podania podzbioru jest mylaace.

Rozwiązanie:Zawsze podawaj nazwe podzbioru obok wyniku.

Ewolucja

Oryginalny paper · 2023 · arXiv 2023 · David Rein
GPQA: A Graduate-Level Google-Proof Q&A Benchmark
David Rein, Betty Li Hou, Asa Cooper Stickland, Jackson Petty, Richard Yuanzhe Pang, Julien Dirani, Julian Michael, Samuel R. Bowman
2023
Publikacja GPQA (arXiv, listopad 2023)
Punkt przełomowy

Rein et al. prezentuja 448 pytan doktoranckich; GPT-4 osiaga 39%, nieeksperci 34%.

2024
GPQA Diamond – standardowy benchmark frontier AI

GPT-4o, Claude 3 Opus i Gemini Ultra raportuja wyniki na GPQA Diamond jako miarę frontier capabilities.

Szczegóły techniczne

Wymagania sprzętowe

Podstawowe

Benchmark tekstowy niezalezny od sprzetu ewaluacyjnego.