Prompt Engineering w praktyce · Multimodalność
Audio i video
Multimodalność
Wprowadzenie
Whisper, GPT-4o Realtime, Gemini 1.5 Pro: jak prompt-owac audio i video w 2024. Transkrypcja, diarization, TTS, voice cloning, video understanding, latency budgets dla voice agents i monitoring produkcji.