Robocikowo>ROBOCIKOWO

Prompt Engineering w praktyce · Ewaluacja promptów

Eval sety, ground truth, metryki

Ewaluacja promptów

Wprowadzenie

Czemu eyeballing nie wystarcza, jak budować eval set, czym jest golden set, jakie metryki wybrać (exact match, F1, pass@k, BERTScore, rubric scoring) i jak unikać typowych pułapek (cherry-picking, leakage, niezbalansowane klasy).