GPT Realtime Translate

gpt-realtime-translate · Rodzina: GPT

Strumieniowy model speech-to-speech do tłumaczeń w czasie rzeczywistym, dostępny przez dedykowany endpoint Realtime translation OpenAI.

✓ Aktywny✓ Publiczny dostępModel audioModel audio📁 GPT

Okno kontekstowe

16K tokens

tokenów

Max output

2000

tokenów

🏢OpenAIProducent

Dostęp:APIWdrożenie:☁ Cloud

Przegląd

GPT-Realtime-Translate to wyspecjalizowany model OpenAI do strumieniowego tłumaczenia mowy na mowę (speech-to-speech), opublikowany w ramach rodziny Realtime API. Model przyjmuje strumień audio źródłowego i zwraca przetłumaczone audio oraz delty transkrypcji jeszcze w trakcie wypowiedzi mówcy, z obsługą zarówno transkryptu źródłowego, jak i docelowego.

Sesje tłumaczeniowe korzystają z odrębnego endpointu /v1/realtime/translations zamiast standardowego /v1/realtime używanego przez agentów głosowych. Architektura jest zaprojektowana wokół ciągłego strumienia audio (bez wywołań response.create), z modelem działającym jako tłumacz, a nie asystent. Obsługiwany jest transport WebRTC (audio jako media track) oraz WebSocket (PCM16 24 kHz w base64).

Typowe zastosowania obejmują tłumaczenia symultaniczne, transmisje wielojęzyczne, spotkania, lekcje, rozmowy konferencyjne i wsparcie klienta. Rozliczanie odbywa się według długości audio (USD za minutę), a nie według tokenów.

Klasyfikacja

Model audioModel audio

Rodzina: GPT

Dostęp i wdrożenie

API

Chmura

Wagi: Zamknięte

Kluczowe parametry

📏 Kontekst: 16K tokens

📥 Wejście: audio

Specyfikacja techniczna

Okno kontekstowe

16K tokens

tokenów

Max output tokens

2000

tokenów na odpowiedź

Knowledge cutoff

30 wrz 2024

Data graniczna wiedzy

Modalności

⬇ Wejście (Input)

audio

⬆ Wyjście (Output)

audiotext

Możliwości i zastosowania

Natywne możliwości modelu

Tłumaczenie na żywo

Tłumaczenie mowy w czasie rzeczywistym między wieloma językami bez przerywania strumienia audio.

Kategoria: speech

Transkrypcja strumieniowa

Konwersja mowy na tekst w czasie rzeczywistym z natychmiastowym wyprowadzaniem wyników w trakcie trwania wypowiedzi.

Kategoria: speech

Architektura techniczna

Rdzeń architektury (Core Architecture)

NMNative Multimodal

Artykuły

1 artykuł

OpenAI wprowadza GPT-Realtime-2: głos z rozumowaniem GPT-5

9 maj 2026

›

Źródła i powiązane strony

3 źródła

Docsgpt-realtime-translate – Model documentationplatform.openai.com DocsRealtime translation – OpenAI API guideplatform.openai.com WebOpenAI Models catalogplatform.openai.com

Przeglądaj powiązane tematy

📁 GPT 🧠 Native Multimodal Wszystkie modele audio model Wszystkie modele speech model