Robocikowo>ROBOCIKOWO
GPT Realtime Whisper

GPT Realtime Whisper

gpt-realtime-whisper · Rodzina: GPT
Strumieniowy model speech-to-text OpenAI do transkrypcji w czasie rzeczywistym o niskiej latencji, dostępny przez Realtime transcription API.
✓ Aktywny✓ Publiczny dostępModel audioModel audio📁 GPT
Okno kontekstowe
16K tokens
tokenów
Max output
2000
tokenów
Dostęp:APIWdrożenie:☁ Cloud

Przegląd

GPT-Realtime-Whisper to wyspecjalizowany model OpenAI do strumieniowej transkrypcji mowy na tekst (speech-to-text), zaprojektowany dla zastosowań realtime, w których kluczowa jest niska latencja delt transkrypcji emitowanych jeszcze w trakcie wypowiedzi mówcy. Model umożliwia developerom dostrojenie kompromisu między latencją a dokładnością transkrypcji.

Sesje transkrypcyjne korzystają z typu sesji 'transcription' i obsługują transport WebSocket (PCM 24 kHz mono w base64) oraz WebRTC. Możliwa jest konfiguracja server VAD (voice activity detection) z parametrami threshold, prefix_padding_ms i silence_duration_ms, lub manualne commitowanie bufora audio. Model emituje zdarzenia conversation.item.input_audio_transcription.delta oraz .completed.

Typowe zastosowania obejmują napisy na żywo, transkrypcję spotkań, wykładów, telefonów, transmisji oraz dyktowanie. Rozliczanie odbywa się według długości audio (USD za minutę), a nie według tokenów. W rodzinie modeli transkrypcyjnych OpenAI pozycjonowany jest jako natywnie strumieniowa alternatywa dla GPT-4o Transcribe, GPT-4o mini Transcribe i Whisper-1.

Klasyfikacja
Model audioModel audio
Rodzina: GPT
Dostęp i wdrożenie
API
Chmura
Wagi: Zamknięte
Kluczowe parametry
📏 Kontekst: 16K tokens
📥 Wejście: audio, tekst

Specyfikacja techniczna

Okno kontekstowe
16K tokens
tokenów
Max output tokens
2000
tokenów na odpowiedź
Knowledge cutoff
30 wrz 2024
Data graniczna wiedzy
Modalności
⬇ Wejście (Input)
audiotext
⬆ Wyjście (Output)
text

Możliwości i zastosowania

Natywne możliwości modelu
Transkrypcja strumieniowa
Konwersja mowy na tekst w czasie rzeczywistym z natychmiastowym wyprowadzaniem wyników w trakcie trwania wypowiedzi.
Kategoria: speech

Architektura techniczna

Rdzeń architektury (Core Architecture)