MMLU
Jak działa
Benchmark składa się z pytań wielokrotnego wyboru (4 opcje) pogrupowanych w 57 tematycznych zadań. Modele są oceniane metodą zero-shot lub few-shot – podaje się pytanie i prosi o wybór odpowiedzi (A/B/C/D). Wyniki raportowane są jako procent poprawnych odpowiedzi na każdym zadaniu oraz jako średnia ważona.
Rozwiązany problem
Brak kompleksowego benchmarku obejmującego szerokie spektrum dziedzin akademickich i zawodowych, przez co nie było możliwe rzetelne porównywanie wiedzy ogólnej i zdolności rozwiązywania problemów przez duże modele językowe.
Implementacja
Nowoczesne modele osiągają ponad 85-90% na MMLU, co czyni go niewystarczającym do różnicowania najlepszych modeli.
Pytania MMLU mogły pojawic sie w danych treningowych modeli, zawyżając wyniki.
Ewolucja
Hendrycks et al. prezentują benchmark 57 zadań; GPT-3 ledwo pokonuje przypadkowe zgadywanie.
Duze modele zaczynaja wyraznie przekraczac ludzki poziom na niektórych kategoriach.
Nasycenie benchmarku prowadzi do powstania MMLU-Pro i GPQA jako nastepników.
Szczegóły techniczne
Wymagania sprzętowe
Benchmark jest niezależny od sprzętu – ocenia wyniki modelu na pytaniach tekstowych, bez wymagań GPU/TPU po stronie ewaluacji.