Ocena jakości

HELM

2022AktywnyOpublikowany

Holistic Evaluation of Language Models – wielowymiarowy framework ewaluacji LLM z 7 metrykami na 42 scenariuszach, opracowany przez Stanford CRFM.

Kluczowa innowacja

Pierwsza wielowymiarowa platforma ewaluacyjna LLM mierzaca jednoczesnie 7 metryk (dokladnosc, kalibracja, odpornosc, sprawiedliwosc, stronniczosc, toksycznosc, wydajnosc) na 42 scenariuszach, ujawniajaca kompromisy pomiedzy modelami niewidoczne przy jednowymiarowym rankingu.

Kategoria

Ocena jakości

Poziom abstrakcji

Pattern

Poziom operacji

Ewaluacja (runtime)

Zastosowania

holistic LLM evaluationmodel comparisonAI transparency researchsafety and fairness assessment

Jak działa

HELM definiuje taksonomie scenariuszy (dziedzina x zadanie x metryka) i wybiera reprezentatywny podzbiór. Kazdy z 30 modeli jest ewaluowany na tych samych promptach w ustandaryzowanych warunkach. Wyniki 7 metryk sa raportowane per scenariusz i agregowane do profilu modelu. Platforma jest hostowana przez Stanford CRFM z publicznym dostepem do surowych danych.

Rozwiązany problem

Fragmentarycznosc i selektywnosc ewaluacji LLM – modele byly porównywane na roznych zbiorach z roznymi metrykami, co uniemozliwialo rzetelne porównania i ukrywalo wazne kompromisy (np. wysoka dokladnosc przy wysokiej toksycznosci).