Prompt Engineering w praktyce · Ewaluacja promptów
LLM-as-judge
Ewaluacja promptów
Wprowadzenie
Jak używać modelu LLM jako sędziego do automatycznej oceny outputów: pointwise vs pairwise, biasy (position, self-preference, verbosity), calibration z human judgment, rubric design, ensembles, kiedy LLM-judge zawodzi.