Robocikowo>ROBOCIKOWO
GPT Realtime Translate

GPT Realtime Translate

gpt-realtime-translate · Rodzina: GPT
Strumieniowy model speech-to-speech do tłumaczeń w czasie rzeczywistym, dostępny przez dedykowany endpoint Realtime translation OpenAI.
✓ Aktywny✓ Publiczny dostępModel audioModel audio📁 GPT
Okno kontekstowe
16K tokens
tokenów
Max output
2000
tokenów
Dostęp:APIWdrożenie:☁ Cloud

Przegląd

GPT-Realtime-Translate to wyspecjalizowany model OpenAI do strumieniowego tłumaczenia mowy na mowę (speech-to-speech), opublikowany w ramach rodziny Realtime API. Model przyjmuje strumień audio źródłowego i zwraca przetłumaczone audio oraz delty transkrypcji jeszcze w trakcie wypowiedzi mówcy, z obsługą zarówno transkryptu źródłowego, jak i docelowego.

Sesje tłumaczeniowe korzystają z odrębnego endpointu /v1/realtime/translations zamiast standardowego /v1/realtime używanego przez agentów głosowych. Architektura jest zaprojektowana wokół ciągłego strumienia audio (bez wywołań response.create), z modelem działającym jako tłumacz, a nie asystent. Obsługiwany jest transport WebRTC (audio jako media track) oraz WebSocket (PCM16 24 kHz w base64).

Typowe zastosowania obejmują tłumaczenia symultaniczne, transmisje wielojęzyczne, spotkania, lekcje, rozmowy konferencyjne i wsparcie klienta. Rozliczanie odbywa się według długości audio (USD za minutę), a nie według tokenów.

Klasyfikacja
Model audioModel audio
Rodzina: GPT
Dostęp i wdrożenie
API
Chmura
Wagi: Zamknięte
Kluczowe parametry
📏 Kontekst: 16K tokens
📥 Wejście: audio

Specyfikacja techniczna

Okno kontekstowe
16K tokens
tokenów
Max output tokens
2000
tokenów na odpowiedź
Knowledge cutoff
30 wrz 2024
Data graniczna wiedzy
Modalności
⬇ Wejście (Input)
audio
⬆ Wyjście (Output)
audiotext

Możliwości i zastosowania

Natywne możliwości modelu
Tłumaczenie na żywo
Tłumaczenie mowy w czasie rzeczywistym między wieloma językami bez przerywania strumienia audio.
Kategoria: speech
Transkrypcja strumieniowa
Konwersja mowy na tekst w czasie rzeczywistym z natychmiastowym wyprowadzaniem wyników w trakcie trwania wypowiedzi.
Kategoria: speech

Architektura techniczna

Rdzeń architektury (Core Architecture)