Ocena jakości

MMLU

2021AktywnyOpublikowany

Benchmark 57 dziedzin wiedzy akademickiej i zawodowej, mierzący rozumienie wielozadaniowe modeli językowych (14 tys. pytań wielokrotnego wyboru).

Kluczowa innowacja

Pierwszy benchmark obejmujący 57 dziedzin akademickich i zawodowych, który ujawnił, że modele językowe mimo imponujących wyników na wąskich zadaniach masowo zawodzą na testach wymagających szerokiej wiedzy encyklopedycznej.

Kategoria

Ocena jakości

Poziom abstrakcji

Pattern

Poziom operacji

Ewaluacja (runtime)

Zastosowania

ewaluacja LLMporównywanie wiedzy ogólnejocena rozumienia języka naturalnegobadania nad AI

Jak działa

Benchmark składa się z pytań wielokrotnego wyboru (4 opcje) pogrupowanych w 57 tematycznych zadań. Modele są oceniane metodą zero-shot lub few-shot – podaje się pytanie i prosi o wybór odpowiedzi (A/B/C/D). Wyniki raportowane są jako procent poprawnych odpowiedzi na każdym zadaniu oraz jako średnia ważona.

Rozwiązany problem

Brak kompleksowego benchmarku obejmującego szerokie spektrum dziedzin akademickich i zawodowych, przez co nie było możliwe rzetelne porównywanie wiedzy ogólnej i zdolności rozwiązywania problemów przez duże modele językowe.

Implementacja

Implementacje referencyjne

MMLU – repozytorium oficjalne

Python · Dan Hendrycks

Pułapki implementacyjne

Saturacja benchmarkuWysoka

Nowoczesne modele osiągają ponad 85-90% na MMLU, co czyni go niewystarczającym do różnicowania najlepszych modeli.

Rozwiązanie:Używaj MMLU-Pro lub GPQA dla bardziej wymagających ewaluacji.

Kontaminacja danych treningowychWysoka

Pytania MMLU mogły pojawic sie w danych treningowych modeli, zawyżając wyniki.

Rozwiązanie:Porownuj z benchmarkami o nowych, niepublikowanych pytaniach (np. FrontierMath).

Ewolucja

Oryginalny paper · 2021 · ICLR 2021 · Dan Hendrycks

Measuring Massive Multitask Language Understanding

Dan Hendrycks, Collin Burns, Steven Basart, Andy Zou, Mantas Mazeika, Dawn Song, Jacob Steinhardt

2021

Publikacja MMLU (ICLR 2021)

Punkt przełomowy

Hendrycks et al. prezentują benchmark 57 zadań; GPT-3 ledwo pokonuje przypadkowe zgadywanie.

2022

GPT-3.5 i PaLM przekraczaja 70%

Duze modele zaczynaja wyraznie przekraczac ludzki poziom na niektórych kategoriach.

2023

GPT-4 osiaga ~86%, MMLU traci zdolnosc dyskryminacji

Punkt przełomowy

Nasycenie benchmarku prowadzi do powstania MMLU-Pro i GPQA jako nastepników.

Szczegóły techniczne

Wymagania sprzętowe

Podstawowe

Benchmark jest niezależny od sprzętu – ocenia wyniki modelu na pytaniach tekstowych, bez wymagań GPU/TPU po stronie ewaluacji.

Źródła

Measuring Massive Multitask Language Understanding

Repozytorium MMLU