Prompt Engineering w praktyce · Multimodalność
Grounding i bounding boxes
Multimodalność
Wprowadzenie
Jak zmusić vision-language model do wskazania konkretnego miejsca na obrazie: bounding boxy, points, segmentation. Układy współrzędnych (Gemini [y,x,0-1000] vs Claude pixele), Set-of-Mark, IoU, halucynacje koordynatów i koszt vs specjalizowane detektory (Grounding DINO, SAM).