HELM
Jak działa
HELM definiuje taksonomie scenariuszy (dziedzina x zadanie x metryka) i wybiera reprezentatywny podzbiór. Kazdy z 30 modeli jest ewaluowany na tych samych promptach w ustandaryzowanych warunkach. Wyniki 7 metryk sa raportowane per scenariusz i agregowane do profilu modelu. Platforma jest hostowana przez Stanford CRFM z publicznym dostepem do surowych danych.
Rozwiązany problem
Fragmentarycznosc i selektywnosc ewaluacji LLM – modele byly porównywane na roznych zbiorach z roznymi metrykami, co uniemozliwialo rzetelne porównania i ukrywalo wazne kompromisy (np. wysoka dokladnosc przy wysokiej toksycznosci).
Implementacja
Ocena 30 modeli na 42 scenariuszach jest kosztowna obliczeniowo i finansowo, co ogranicza dostepnosc pelnej ewaluacji.
Ewolucja
Percy Liang i 49 wspolautorów prezentuje framework; 30 modeli ewaluowanych na 42 scenariuszach.
Wersja v2 rozszerza benchmark o modele z 2023 roku i nowe scenariusze.
Szczegóły techniczne
Wymagania sprzętowe
Framework ewaluacyjny niezalezny od architektury sprzetowej – ewaluacja odbywa sie przez API lub lokalne wywolania modeli.