Robocikowo>ROBOCIKOWO
Ocena jakości

MMLU-Pro

2024AktywnyOpublikowany
Wzbogacona wersja MMLU z 10 opcjami odpowiedzi, pytaniami wymagajacymi rozumowania i usunieta szumem – trudniejsza i bardziej stabilna na rozne prompty (NeurIPS 2024 Spotlight).
Kluczowa innowacja
Rozszerzona wersja MMLU usuwajaca pytania trywialne i szumowe, zwiekszajaca liczbe opcji z 4 do 10 oraz wzbogacajaca zbior o pytania wymagajace rozumowania (nie tylko wiedzy), co obniza dokladnosc modeli o 16-33% i przywraca zdolnosc dyskryminacyjna benchmarku.
Kategoria
Ocena jakości
Poziom abstrakcji
Pattern
Poziom operacji
Ewaluacja (runtime)
Zastosowania
ewaluacja frontier LLMtestowanie rozumowania wieloetapowegoporównywanie modeli frontierocena CoT

Jak działa

Zbior rozszerza MMLU przez: (1) konsolidacje ze zródlami zewnetrznymi w celu usuniecia pytañ banalnych; (2) rozszerzenie opcji do 10 na pytanie; (3) dodanie pytan wieloetapowych wymagajacych rozumowania. Modele sa oceniane zero-shot i CoT; wyniki pokazuja, ze CoT jest efektywniejszy na MMLU-Pro niz na oryginalnym MMLU.

Rozwiązany problem

Nasycenie oryginalnego MMLU przez modele frontier (>85-90%) i jego wrazkliwosc na wariacje promptow, co uniemozliwialo rozroznianie zdolnosci miedzy najlepszymi modelami.

Implementacja

Pułapki implementacyjne
10 opcji zwieksza koszt tokenów przy few-shotNiska

Prompt z 10 opcjami odpowiedzi jest dluzszy, co zwieksza koszt ewaluacji few-shot przy dlugich przykładach.

Rozwiązanie:Uzywaj zero-shot CoT lub skróconego few-shot (1-3 przyklady).

Ewolucja

Oryginalny paper · 2024 · NeurIPS 2024 (Datasets and Benchmarks Track, Spotlight) · Yubo Wang
MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark
Yubo Wang, Xueguang Ma, Ge Zhang, Yuansheng Ni, Xiang Yue, Wenhu Chen
2024
Publikacja MMLU-Pro (czerwiec 2024, NeurIPS 2024 Spotlight)
Punkt przełomowy

Wang et al. publikuja ulepszona wersje MMLU z 10 opcjami i pytaniami rozumowania; wyniki modeli spadaja o 16-33%.

Szczegóły techniczne

Wymagania sprzętowe

Podstawowe

Benchmark tekstowy niezalezny od sprzetu ewaluacyjnego.