Ocena jakości

MMLU-Pro

2024AktywnyOpublikowany

Wzbogacona wersja MMLU z 10 opcjami odpowiedzi, pytaniami wymagajacymi rozumowania i usunieta szumem – trudniejsza i bardziej stabilna na rozne prompty (NeurIPS 2024 Spotlight).

Kluczowa innowacja

Rozszerzona wersja MMLU usuwajaca pytania trywialne i szumowe, zwiekszajaca liczbe opcji z 4 do 10 oraz wzbogacajaca zbior o pytania wymagajace rozumowania (nie tylko wiedzy), co obniza dokladnosc modeli o 16-33% i przywraca zdolnosc dyskryminacyjna benchmarku.

Kategoria

Ocena jakości

Poziom abstrakcji

Wzorzec

Poziom operacji

Ewaluacja (runtime)

Zastosowania

ewaluacja frontier LLMtestowanie rozumowania wieloetapowegoporównywanie modeli frontierocena CoT

Jak działa

Zbior rozszerza MMLU przez: (1) konsolidacje ze zródlami zewnetrznymi w celu usuniecia pytañ banalnych; (2) rozszerzenie opcji do 10 na pytanie; (3) dodanie pytan wieloetapowych wymagajacych rozumowania. Modele sa oceniane zero-shot i CoT; wyniki pokazuja, ze CoT jest efektywniejszy na MMLU-Pro niz na oryginalnym MMLU.

Rozwiązany problem

Nasycenie oryginalnego MMLU przez modele frontier (>85-90%) i jego wrazkliwosc na wariacje promptow, co uniemozliwialo rozroznianie zdolnosci miedzy najlepszymi modelami.