Prompt Engineering w praktyce · Ewaluacja promptów
Eval sety, ground truth, metryki
Ewaluacja promptów
Wprowadzenie
Czemu eyeballing nie wystarcza, jak budować eval set, czym jest golden set, jakie metryki wybrać (exact match, F1, pass@k, BERTScore, rubric scoring) i jak unikać typowych pułapek (cherry-picking, leakage, niezbalansowane klasy).