7 maja 2026 r. OpenAI ogłosiło trzy nowe modele audio dostępne w Realtime API: GPT-Realtime-2 wyposażony w rozumowanie klasy GPT-5, GPT-Realtime-Translate umożliwiający tłumaczenie mowy na żywo w ponad 70 językach wejściowych i 13 wyjściowych oraz GPT-Realtime-Whisper — model do strumieniowej transkrypcji mowy. Premiera wyznacza nowy standard dla głosowych interfejsów AI, które dotychczas ograniczały się do prostej reakcji na pytanie bez faktycznej analizy kontekstu ani wieloetapowego działania.
Najważniejsze w skrócie
- GPT-Realtime-2 to pierwszy model głosowy OpenAI z rozumowaniem klasy GPT-5 i oknem kontekstu rozszerzonym do 128K tokenów (poprzednio 32K)
- GPT-Realtime-Translate obsługuje 70+ języków wejściowych i 13 wyjściowych, cena: 0,034 USD/minutę
- GPT-Realtime-Whisper: strumieniowa transkrypcja mowy na żywo, cena: 0,017 USD/minutę
- GPT-Realtime-2 uzyskał wynik o 15,2% wyższy na Big Bench Audio i 13,8% wyższy na Audio MultiChallenge niż poprzednik GPT-Realtime-1.5
- Zillow odnotował 26-punktowy wzrost wskaźnika sukcesu rozmów po optymalizacji promptów z GPT-Realtime-2 (95% vs. 69%)
Trzy modele — trzy odmienne zastosowania
GPT-Realtime-2 nie jest prostym następcą GPT-Realtime-1.5. OpenAI przeprojektowało model tak, aby mógł prowadzić rozmowę w czasie, gdy jednocześnie wywołuje narzędzia, weryfikuje kontekst i dostosowuje ton do sytuacji. Nowa funkcja "preamble" pozwala modelowi wypowiadać krótkie frazy (np. "sprawdzam" lub "chwila") zanim wygeneruje odpowiedź, dzięki czemu użytkownik wie, że agent AI przetwarza zapytanie, a nie zawiesił się. Równoległe wywołania narzędzi i możliwość głośnego informowania o nich — "sprawdzam twój kalendarz" — sprawiają, że głosowy asystent zachowuje się jak rozmówca, nie jak automat. Maksymalny rozmiar okna kontekstu wzrósł czterokrotnie: z 32K do 128K tokenów.
GPT-Realtime-Translate to osobna ścieżka: dedykowany model tłumaczenia uruchamiany na odrębnym endpoincie /v1/realtime/translations. W odróżnieniu od trybu agentowego sesja tłumaczeniowa jest ciągła — model natychmiast przetwarza napływające dźwięki bez czekania na zamknięcie tury rozmowy. Deutsche Telekom testuje ten model do wielojęzycznej obsługi klientów, BolnaAI odnotowało 12,5% niższy Word Error Rate w językach hindi, tamilskim i telugu w porównaniu do innych testowanych modeli.
GPT-Realtime-Whisper uzupełnia ofertę o transkrypcję strumieniową. Model może zasilać napisy na żywo, notatki ze spotkań generowane w trakcie rozmowy, systemy CRM i narzędzia wsparcia klienta. W odróżnieniu od tradycyjnego speech-to-speech AI Whisper nie generuje odpowiedzi dźwiękowych — dostarcza wyłącznie tekst.
Benchmarki i wyniki wczesnych testerów
OpenAI publikuje dwa zestawy wyników porównawczych. Big Bench Audio mierzy zdolności wnioskowania modeli obsługujących wejście audio — GPT-Realtime-2 (high) osiąga wynik o 15,2% wyższy niż GPT-Realtime-1.5. Audio MultiChallenge testuje wieloturową inteligencję konwersacyjną, w tym śledzenie instrukcji, spójność i obsługę korekt mowy — tu GPT-Realtime-2 (xhigh) uzyskuje wynik o 13,8% wyższy od poprzednika.
Zillow, testujący model do głosowego wyszukiwania nieruchomości, potwierdza 26-punktowy wzrost wskaźnika sukcesu rozmów po optymalizacji promptów (95% vs. 69%) oraz poprawę zgodności z przepisami Fair Housing. Glean, Genspark i Priceline zgłaszają zbliżone wyniki w swoich domenach — asystentach produktywności, planowaniu podróży i obsłudze klienta.
Model cenowy i dostępność
Wszystkie trzy modele są dostępne przez OpenAI API w Realtime API. GPT-Realtime-2 jest rozliczany tokenowo: 32 USD za 1M tokenów audio wejściowych (0,40 USD dla tokenów z cache) i 64 USD za 1M tokenów audio wyjściowych. GPT-Realtime-Translate i GPT-Realtime-Whisper są rozliczane minutowo — odpowiednio 0,034 USD/min i 0,017 USD/min. W porównaniu z poprzednim GPT-Realtime-1.5 nowe modele oferują wyższe możliwości przy zbliżonym lub niższym koszcie na minutę dla zastosowań tłumaczeniowych i transkrypcyjnych.
Dla deweloperów budujących aplikacje przeglądarkowe zalecana jest ścieżka WebRTC przez Agents SDK. Aplikacje serwerowe obsługujące media — centrala telefoniczna, strumieniowanie — mogą korzystać z WebSocket. Dostępna jest też opcja SIP dla telefonii. EU Data Residency jest w pełni obsługiwane dla aplikacji z obszaru UE.
Kontekst rynkowy: Google i ElevenLabs jako punkty odniesienia
OpenAI nie jest jedynym graczem w przestrzeni głosowych modeli AI. Google oferuje Gemini Live z natywną obsługą audio w modelu Gemini 2.5 Pro, natomiast ElevenLabs specjalizuje się w wysokiej jakości syntezie mowy. Różnica polega na podejściu: podczas gdy konkurenci koncentrują się głównie na jakości głosu lub warstwie konwersacyjnej, GPT-Realtime-2 łączy wnioskowanie, wywołania narzędzi i dostosowywanie tonu w jednym modelu. Dotychczas wymagało to albo osobnego modelu LLM i tradycyjnego TTS, albo zaakceptowania gorszej jakości wnioskowania w modelu głosowym.
Dlaczego to ważne?
Interfejsy głosowe od lat funkcjonują na obrzeżach ekosystemu AI — użyteczne w wąskich zastosowaniach (dyktowanie, proste komendy), lecz zbyt zawodne dla złożonych przepływów pracy. Główną barierą był brak zdolności do wnioskowania w czasie rzeczywistym: model musiał odesłać zapytanie do oddzielnego systemu LLM, przetworzyć je tekstowo i dopiero wtedy wygenerować odpowiedź głosową. GPT-Realtime-2 zamyka tę pętlę — reasoning dzieje się bezpośrednio w warstwie audio, bez kosztownego przełączania modali. Dla branży obsługi klienta, edukacji i systemów in-car oznacza to możliwość budowania asystentów, którzy realnie rozumieją złożone pytania, a nie tylko dopasowują je do szablonów. Rozszerzenie kontekstu do 128K tokenów sprawia, że model może prowadzić długie, spójne sesje — co wcześniej było domeną wyłącznie czatowych interfejsów tekstowych.
Co dalej?
- OpenAI zapowiedziało obsługę SIP dla telefonii — nowa ścieżka połączeń dla call center i rozwiązań enterprise, dostępna obok WebRTC i WebSocket
- Regulacja UE (AI Act) wchodzi w kolejne etapy stosowania w 2026 r. — dostawcy głosowych agentów AI będą musieli spełnić wymogi dotyczące identyfikacji systemu AI wobec użytkowników (wymóg już ujęty w polityce OpenAI)
- Wycena za minutę tłumaczenia (0,034 USD) przy skali milionów rozmów tworzy istotny potencjał przychodowy — OpenAI nie ujawniło prognozy, ale Deutsche Telekom i Priceline jako pierwsi partnerzy wskazują na kierunek komercjalizacji

