Obsługa wielu formatów danych

Speech-to-speech AI

2024AktywnyOpublikowano: 20 marca 2026Aktualizacja: 20 marca 2026Opublikowany

System AI, który bezpośrednio odbiera mowę i generuje mowę jako odpowiedź, często w czasie rzeczywistym i bez pośredniego etapu tekstowego.

Kluczowa innowacja

Klasa architektur umożliwiająca bezpośrednie przetwarzanie mowy na wyjście mowne — albo przez zastąpienie kaskadowego potoku STT→LLM→TTS jednym end-to-end modelem operującym na reprezentacjach audio, albo przez ścisłe zintegrowanie komponentów potoku w celu minimalizacji latencji i zachowania cech paralingwistycznych (prozodii, emocji, cech głosu mówiącego).

Kategoria

Obsługa wielu formatów danych

Poziom abstrakcji

Paradigm

Poziom operacji

ModelSystemInferencja

Zastosowania

Asystenci głosowi nowej generacjiRealtime voice agentsObsługa klienta przez głosTłumaczenie i rozmowy głosoweInterfejsy hands-free

Jak działa

Model przyjmuje audio jako sygnał wejściowy, analizuje jego treść i cechy paralingwistyczne, a następnie generuje odpowiedź w postaci dźwięku. Wariant natywny speech-to-speech działa jako pojedynczy model multimodalny, natomiast wariant pipeline'owy składa się z kilku komponentów: ASR, LLM i TTS.

Rozwiązany problem

Klasyczne pipeline'y głosowe zwiększają latencję i mogą gubić część informacji zawartej w mowie, np. emocję, intencję, akcent czy niuanse prozodyczne. Speech-to-speech AI zmniejsza ten problem, obsługując wejście i wyjście głosowe bezpośrednio.

Komponenty

Enkoder mowy (Speech Encoder)Ekstrakcja reprezentacji semantycznych i paralingwistycznych z wejściowego sygnału mowy.

Moduł przekształcający wejściowy sygnał audio (surowe próbki lub spektrogramy mel) w reprezentacje ukryte (embeddingi) używane przez dalsze komponenty systemu. W architekturach kaskadowych rolę enkodera pełni model ASR generujący tokeny tekstowe. W architekturach end-to-end enkoder przetwarza audio do ciągłych reprezentacji zachowując informacje paralingwistyczne.

ASR/STT (Automatic Speech Recognition)W architekturze kaskadowej: transkrybuje mowę do tekstu (np. Whisper, Google STT). Dyskretne wyjście — utrata informacji paralingwistycznej.

Enkoder audio end-to-end (ciągły)W architekturach bezpośrednich: sieć neuronowa (np. oparta na Transformerze) przetwarzająca spektrogramy mel lub dyskretne tokeny audio do ciągłych embeddingów bez przejścia przez tekst.

Oficjalna

Moduł rozumowania i generowania odpowiedziRozumienie intencji, generowanie treści odpowiedzi i zarządzanie kontekstem konwersacji.

Komponent przetwarzający reprezentacje wejściowe i generujący reprezentacje odpowiedzi. W architekturach kaskadowych jest to model językowy (LLM) operujący na tekście. W architekturach end-to-end może to być LLM kondycjonowany na tokenach/embeddingach audio lub model sekwencja-do-sekwencji trenowany bezpośrednio na parach audio.

Oficjalna

Dekoder / Syntetyzator mowySynteza mowy na wyjście systemu z zachowaniem naturalnego brzmienia, opcjonalnie z zachowaniem tożsamości głosu lub emocji.

Komponent generujący wyjściowy sygnał audio na podstawie reprezentacji odpowiedzi. W architekturach kaskadowych jest to moduł TTS (Text-to-Speech) operujący na tekście. W architekturach end-to-end dekoduje reprezentacje ukryte do spektrogramów lub tokenów audio, które następnie są przekształcane w wyjście przez model vocodera.

TTS (Text-to-Speech)W architekturze kaskadowej: syntetyzuje mowę z tekstu (np. VITS, Tacotron 2, ElevenLabs). Możliwość ekspresywnej syntezy, ale ograniczona zachowaniem oryginalnych cech głosu.

Dekoder spektrogramu + vocoderW architekturach end-to-end: dekoder produkuje spektrogramy mel, które są przekształcane w sygnał audio przez vocoder (np. WaveNet, WaveGlow, HiFi-GAN).

Oficjalna

Detektor aktywności głosowej (VAD)Zarządzanie kolejnością mówienia, wyzwalanie przetwarzania wejścia oraz obsługa przerwania (barge-in).

Komponent wykrywający momentu początku i końca wypowiedzi użytkownika w strumieniu audio, kluczowy dla naturalnego zarządzania kolejnością mówienia w konwersacji. Współczesne modele VAD (np. Silero VAD) przetwarzają 30-milisekundowe ramki audio w czasie < 1 ms na CPU.

Oficjalna

Implementacja

Implementacje referencyjne

Translatotron – oficjalny blog Google Research

Google Research

Oficjalna

Moshi – Kyutai Labs (open-source)

Python · Kyutai Labs

Oficjalna

LLaMA-Omni – open-source S2S model

Python · ICTNLP

Pułapki implementacyjne

Utrata informacji paralingwistycznej w architekturach kaskadowychWysoka

W architekturze STT→LLM→TTS konwersja mowy na tekst w kroku STT nieodwracalnie usuwa informacje o prozodii, emocjach, tempie mówienia, wahaniach i cechach głosu. Synteza TTS musi odtworzyć ekspresję od zera, co prowadzi do utraty naturalności i kontekstu emocjonalnego rozmówcy.

Rozwiązanie:Dla zastosowań wymagających zachowania emocji/prozodii: użyć architektury end-to-end lub wzbogacić potok kaskadowy o moduł analizy emocji działający równolegle z STT, przekazujący metadane emocjonalne do TTS.

Propagacja błędów w architekturach kaskadowychWysoka

Błędy STT (błędna transkrypcja) propagują się i mogą być wzmacniane przez LLM (nieprawidłowe rozumienie intencji) i TTS (generacja niepoprawnej lub nieadekwatnej odpowiedzi). Efekt kumulacji błędów jest szczególnie dotkliwy dla słów kluczowych, nazw własnych i żargonu specjalistycznego.

Rozwiązanie:Stosowanie specjalistycznych modeli STT wytrenowanych na danych domenowych; dodanie mechanizmów korekty i walidacji między etapami; monitorowanie wskaźnika WER (Word Error Rate) w środowisku produkcyjnym.

Niska dostępność równoległych danych audio dla modeli end-to-endWysoka

Modele bezpośrednie (end-to-end) wymagają par audio (wejście→wyjście), które są znacznie trudniejsze do zebrania niż dane tekstowe lub pary transkrypcji audio. Szczególnie problematyczne dla niskiego zasobu językowego (low-resource languages). Skutkuje to często gorszą generalizacją modeli bezpośrednich na rzadkich językach.

Rozwiązanie:Stosowanie syntetycznych danych treningowych generowanych przez TTS jako docelowych przykładów (jak w Translatotron); użycie multitask learning z dostępnymi danymi tekstowymi jako pomocniczym sygnałem; transfer learning z pretrenowanych enkoderów audio.

Latencja sieci w czasie rzeczywistym i problemy z jakością audioŚrednia

Systemy S2S w czasie rzeczywistym są wrażliwe na jitter sieciowy i jakość połączenia. Standardowe kodeki telefoniczne (np. 8 kHz G.711 w PSTN/Twilio) degradują jakość audio poniżej wymagań nowoczesnych modeli (typowo wytrenowanych na audio 16 kHz). GPT-4o Realtime i Gemini Live osiągają najlepsze wyniki z wideband audio 16 kHz, ale tracą przewagę nad kaskadą przy telefonii 8 kHz.

Rozwiązanie:Używać wideband audio (G.722, 16 kHz lub wyżej) tam, gdzie to możliwe. Dla wdrożeń telefonicznych rozważyć architekturę kaskadową z telefonii-zoptymalizowanymi komponentami STT. Implementować buforowanie audio po stronie klienta w celu wygładzenia jitteru.

Ewolucja

2019

Translatotron (Google) – pierwszy end-to-end model S2ST bez pośredniej reprezentacji tekstu

Punkt przełomowy

Jia et al. opublikowali Translatotron (arXiv:1904.06037), pierwszy model sekwencja-do-sekwencji dla bezpośredniego tłumaczenia mowy na mowę bez pośredniego tekstu. Model przyjmował spektrogramy mel języka źródłowego i generował spektrogramy mel języka docelowego. Wykazano możliwość zachowania cech głosu mówcy przez enkoder głosowy. Jakość tłumaczenia była niższa niż w systemach kaskadowych, ale wykazano wykonalność podejścia.

Direct speech-to-speech translation with a sequence-to-sequence model (artykuł)

2022

Translatotron 2 – jakość end-to-end S2ST na poziomie kaskady

Google opublikowało Translatotron 2 (Jia et al., 2022), poprawioną architekturę bezpośredniego tłumaczenia mowy na mowę, która osiągnęła jakość porównywalną do systemów kaskadowych na standardowych benchmarkach, eliminując przy tym podatność na klonowanie głosu obecną w Translatotron 1.

Translatotron 2: High-quality direct speech-to-speech translation with voice preservation (artykuł)

2024

Moshi (Kyutai Labs) – pierwsza publicznie udokumentowana end-to-end S2S model dla real-time full-duplex dialogu konwersacyjnego

Punkt przełomowy

Kyutai Labs opublikowało Moshi (2024), speech-text foundation model dla real-time dialogu. Model obsługuje full-duplex — może jednocześnie słuchać i mówić. Opublikowane wagi modelu i dokumentacja techniczna. Osiągnięta latencja ~160 ms teoretycznie, ~200 ms w praktyce.

Moshi: a speech-text foundation model for real-time dialogue (artykuł)

2024

GPT-4o Realtime API (OpenAI) i LLaMA-Omni – komercjalizacja end-to-end S2S

Punkt przełomowy

OpenAI udostępniło GPT-4o z natywnymi możliwościami speech-to-speech (mayo 2024 demo, październik 2024 API). LLaMA-Omni (2024) zademonstrował open-source podejście do end-to-end S2S opartego na LLaMA. Architektura end-to-end S2S weszła do produkcyjnego stosowania w skali komercyjnej.

Hiperparametry (konfigurowalne osie)

Typ architektury (kaskada vs. end-to-end)Krytyczna

Fundamentalny wybór między architekturą kaskadową (STT→LLM→TTS) a architekturą bezpośrednią (end-to-end). Determinuje latencję, zachowanie prozodii, możliwości debugowania i wymagania dotyczące danych treningowych.

cascade (STT→LLM→TTS)Modularna, konfigurowalna, latencja 2–4 s, najlepsza kontrola treści.

end-to-end (audio-to-audio)Zachowanie prozodii, latencja <1 s, wymaga danych audio paired.

hybrid (tightly coupled pipeline)STT/LLM/TTS z nakładaniem i streamingiem, latencja 250–500 ms.

Tryb dupleksowyWysoka

Czy system obsługuje half-duplex (turn-based, jedna strona mówi w danej chwili) czy full-duplex (obie strony mogą mówić jednocześnie, możliwość przerwania). Full-duplex wymaga zaawansowanego VAD i mechanizmów barge-in.

half-duplex (turn-based)Prostszy w implementacji; model czeka na zakończenie wypowiedzi użytkownika.

full-duplexBardziej naturalny dialog; model może być przerywany w trakcie generowania odpowiedzi.

Reprezentacja audioWysoka

Format wejścia/wyjścia audio używany przez model: surowy sygnał (waveform), spektrogram mel, dyskretne tokeny audio (z kodera/dekodera audio np. EnCodec, SoundStream) lub embeddingi ciągłe.

mel spectrogramStosowany w Translatotron — wejście i wyjście jako sekwencje spectrogramów mel.

discrete audio tokens (codec)Stosowany w modelach jak Moshi, LLaMA-Omni — audio tokenizowane przez EnCodec lub SoundStream.

continuous audio embeddingsEmbeddingi ciągłe z pretrenowanego enkodera audio (np. Whisper encoder).

Wąskie gardło obliczeniowe

Łączna latencja pipeline'u (kaskada) lub generacja tokenów audio (end-to-end)

W architekturach kaskadowych wąskim gardłem jest suma latencji poszczególnych etapów: ASR (transkrypcja) + LLM (generacja tekstu) + TTS (synteza mowy), typowo 2–4 sekundy end-to-end. W architekturach end-to-end wąskim gardłem jest autoregresyjna generacja tokenów audio przez model LLM (podobna do generacji tekstu, ale z większą objętością tokenów per sekunda mowy).

Zależy od

Czas do pierwszego tokenu LLM (TTFT)Przepustowość sieci (streaming audio)

Paradygmat wykonania

Tryb główny

dense

Zarówno kaskadowe jak i end-to-end architektury S2S używają dense przetwarzania w każdym ze swoich komponentów. 'Stage-dependent' odnosi się do faktu, że różne komponenty (enkoder, LLM, dekoder) są aktywowane sekwencyjnie w toku przetwarzania jednego zapytania. W systemach full-duplex (np. Moshi) wejście i wyjście są przetwarzane równocześnie w modelu zdolnym do jednoczesnego 'słuchania i mówienia'.

Wzorzec aktywacji

stage_dependent

Równoległość

Poziom równoległości

partially_parallel

Wielokrotne równoległe zapytania od różnych użytkowników mogą być obsługiwane równolegle przez różne instancje modelu (across devices). Streaming audio i nakładanie etapów (overlapping) może redukować latencję percepcyjną.

Zakres

inference

Ograniczenia

!W architekturze kaskadowej każdy etap musi zakończyć się przed przekazaniem wyników do kolejnego. Możliwe przyspieszenie przez streaming częściowych wyników (np. streaming TTS po pierwszych tokenach LLM), ale fazy nie mogą działać w pełni równolegle dla jednego zapytania.

!End-to-end modele generują tokeny audio autoregresywnie — sekwencyjnie token po tokenie, ograniczając parallelizm podczas inferencji.

Wymagania sprzętowe

Podstawowe

Zarówno komponenty modeli kaskadowych (Whisper, LLM, TTS) jak i modele end-to-end S2S (Moshi, LLaMA-Omni, GPT-4o backend) są architekturami Transformer wymagającymi GPU z Tensor Cores do efektywnej inferencji. Realtimowe przetwarzanie mowy z latencją <500 ms w skali produkcyjnej wymaga GPU.

Możliwe

Mniejsze modele STT (np. Whisper tiny/base) i VAD (np. Silero VAD) mogą działać efektywnie na CPU z rozszerzeniami AVX. Dla pełnych pipeline'ów kaskadowych z dużymi LLM CPU jest niewystarczający dla wymagań latencji real-time.

Źródła

Realtime API

Dokumentacja

OpenAI

Dokumentacja realtime multimodal i speech-to-speech interactions.

Audio and speech

Dokumentacja

OpenAI

Opis podejść speech-to-speech oraz pipeline'ów głosowych.

Voice agents

Dokumentacja

OpenAI

Opis architektury S2S i zastosowań voice agents.