Ewaluacja modeli

Model evaluation to zastosowanie narzędzi i metodologii do oceny jakości modeli uczenia maszynowego i modeli językowych. Obejmuje pomiary na zbiorach testowych (accuracy, F1, BLEU, ROUGE), ocenę z pomocą innych modeli (LLM-as-a-judge), testy bezpieczeństwa i red-teaming, a także ewaluację na zbiorach zadań specjalistycznych (MMLU, HumanEval, BIG-Bench). Stosowane przez zespoły badawcze, organizacje standaryzujące (HELM, EleutherAI) i platformy MLOps w celu porównywania modeli i doboru odpowiedniego do konkretnego przypadku użycia.

Powiązane systemy AI

DBRX MoE-A

DBRX MoE-B