Prompt Engineering w praktyce · Multimodalność
OCR i document understanding
Multimodalność
Wprowadzenie
OCR przez nowoczesne VLM (GPT-4o, Claude 3.5, Gemini) to nie tylko 'czytanie tekstu' — to strukturalna ekstrakcja: faktury do JSON, formularze do bazy, paragony do księgowości. Ten urok: schema-first prompting, halucynacje, multi-page PDF, compliance i monitoring produkcji.