Robocikowo>ROBOCIKOWO
Ocena jakości

MMLU

2021AktywnyOpublikowany
Benchmark 57 dziedzin wiedzy akademickiej i zawodowej, mierzący rozumienie wielozadaniowe modeli językowych (14 tys. pytań wielokrotnego wyboru).
Kluczowa innowacja
Pierwszy benchmark obejmujący 57 dziedzin akademickich i zawodowych, który ujawnił, że modele językowe mimo imponujących wyników na wąskich zadaniach masowo zawodzą na testach wymagających szerokiej wiedzy encyklopedycznej.
Kategoria
Ocena jakości
Poziom abstrakcji
Pattern
Poziom operacji
Ewaluacja (runtime)
Zastosowania
ewaluacja LLMporównywanie wiedzy ogólnejocena rozumienia języka naturalnegobadania nad AI

Jak działa

Benchmark składa się z pytań wielokrotnego wyboru (4 opcje) pogrupowanych w 57 tematycznych zadań. Modele są oceniane metodą zero-shot lub few-shot – podaje się pytanie i prosi o wybór odpowiedzi (A/B/C/D). Wyniki raportowane są jako procent poprawnych odpowiedzi na każdym zadaniu oraz jako średnia ważona.

Rozwiązany problem

Brak kompleksowego benchmarku obejmującego szerokie spektrum dziedzin akademickich i zawodowych, przez co nie było możliwe rzetelne porównywanie wiedzy ogólnej i zdolności rozwiązywania problemów przez duże modele językowe.

Implementacja

Pułapki implementacyjne
Saturacja benchmarkuWysoka

Nowoczesne modele osiągają ponad 85-90% na MMLU, co czyni go niewystarczającym do różnicowania najlepszych modeli.

Rozwiązanie:Używaj MMLU-Pro lub GPQA dla bardziej wymagających ewaluacji.
Kontaminacja danych treningowychWysoka

Pytania MMLU mogły pojawic sie w danych treningowych modeli, zawyżając wyniki.

Rozwiązanie:Porownuj z benchmarkami o nowych, niepublikowanych pytaniach (np. FrontierMath).

Ewolucja

Oryginalny paper · 2021 · ICLR 2021 · Dan Hendrycks
Measuring Massive Multitask Language Understanding
Dan Hendrycks, Collin Burns, Steven Basart, Andy Zou, Mantas Mazeika, Dawn Song, Jacob Steinhardt
2021
Publikacja MMLU (ICLR 2021)
Punkt przełomowy

Hendrycks et al. prezentują benchmark 57 zadań; GPT-3 ledwo pokonuje przypadkowe zgadywanie.

2022
GPT-3.5 i PaLM przekraczaja 70%

Duze modele zaczynaja wyraznie przekraczac ludzki poziom na niektórych kategoriach.

2023
GPT-4 osiaga ~86%, MMLU traci zdolnosc dyskryminacji
Punkt przełomowy

Nasycenie benchmarku prowadzi do powstania MMLU-Pro i GPQA jako nastepników.

Szczegóły techniczne

Wymagania sprzętowe

Podstawowe

Benchmark jest niezależny od sprzętu – ocenia wyniki modelu na pytaniach tekstowych, bez wymagań GPU/TPU po stronie ewaluacji.