Robocikowo>ROBOCIKOWO

Prompt Engineering w praktyce · Ewaluacja promptów

LLM-as-judge

Ewaluacja promptów

Wprowadzenie

Jak używać modelu LLM jako sędziego do automatycznej oceny outputów: pointwise vs pairwise, biasy (position, self-preference, verbosity), calibration z human judgment, rubric design, ensembles, kiedy LLM-judge zawodzi.