GPT Realtime Whisper

gpt-realtime-whisper · Rodzina: GPT

Strumieniowy model speech-to-text OpenAI do transkrypcji w czasie rzeczywistym o niskiej latencji, dostępny przez Realtime transcription API.

✓ Aktywny✓ Publiczny dostępModel audioModel audio📁 GPT

Okno kontekstowe

16K tokens

tokenów

Max output

2000

tokenów

🏢OpenAIProducent

Dostęp:APIWdrożenie:☁ Cloud

Przegląd

GPT-Realtime-Whisper to wyspecjalizowany model OpenAI do strumieniowej transkrypcji mowy na tekst (speech-to-text), zaprojektowany dla zastosowań realtime, w których kluczowa jest niska latencja delt transkrypcji emitowanych jeszcze w trakcie wypowiedzi mówcy. Model umożliwia developerom dostrojenie kompromisu między latencją a dokładnością transkrypcji.

Sesje transkrypcyjne korzystają z typu sesji 'transcription' i obsługują transport WebSocket (PCM 24 kHz mono w base64) oraz WebRTC. Możliwa jest konfiguracja server VAD (voice activity detection) z parametrami threshold, prefix_padding_ms i silence_duration_ms, lub manualne commitowanie bufora audio. Model emituje zdarzenia conversation.item.input_audio_transcription.delta oraz .completed.

Typowe zastosowania obejmują napisy na żywo, transkrypcję spotkań, wykładów, telefonów, transmisji oraz dyktowanie. Rozliczanie odbywa się według długości audio (USD za minutę), a nie według tokenów. W rodzinie modeli transkrypcyjnych OpenAI pozycjonowany jest jako natywnie strumieniowa alternatywa dla GPT-4o Transcribe, GPT-4o mini Transcribe i Whisper-1.

Klasyfikacja

Model audioModel audio

Rodzina: GPT

Dostęp i wdrożenie

API

Chmura

Wagi: Zamknięte

Kluczowe parametry

📏 Kontekst: 16K tokens

📥 Wejście: audio, tekst

Specyfikacja techniczna

Okno kontekstowe

16K tokens

tokenów

Max output tokens

2000

tokenów na odpowiedź

Knowledge cutoff

30 wrz 2024

Data graniczna wiedzy

Modalności

⬇ Wejście (Input)

audiotext

⬆ Wyjście (Output)

text

Możliwości i zastosowania

Natywne możliwości modelu

Transkrypcja strumieniowa

Konwersja mowy na tekst w czasie rzeczywistym z natychmiastowym wyprowadzaniem wyników w trakcie trwania wypowiedzi.

Kategoria: speech

Architektura techniczna

Rdzeń architektury (Core Architecture)

NMNative Multimodal

Artykuły

1 artykuł

OpenAI wprowadza GPT-Realtime-2: głos z rozumowaniem GPT-5

9 maj 2026

›

Źródła i powiązane strony

3 źródła

Docsgpt-realtime-whisper – Model documentationplatform.openai.com DocsRealtime transcription – OpenAI API guideplatform.openai.com WebOpenAI Models catalogplatform.openai.com

Przeglądaj powiązane tematy

📁 GPT 🧠 Native Multimodal Wszystkie modele audio model Wszystkie modele speech model