Speech-to-speech AI
Jak działa
Model przyjmuje audio jako sygnał wejściowy, analizuje jego treść i cechy paralingwistyczne, a następnie generuje odpowiedź w postaci dźwięku. Wariant natywny speech-to-speech działa jako pojedynczy model multimodalny, natomiast wariant pipeline'owy składa się z kilku komponentów: ASR, LLM i TTS.
Rozwiązany problem
Klasyczne pipeline'y głosowe zwiększają latencję i mogą gubić część informacji zawartej w mowie, np. emocję, intencję, akcent czy niuanse prozodyczne. Speech-to-speech AI zmniejsza ten problem, obsługując wejście i wyjście głosowe bezpośrednio.
Komponenty
Moduł przekształcający wejściowy sygnał audio (surowe próbki lub spektrogramy mel) w reprezentacje ukryte (embeddingi) używane przez dalsze komponenty systemu. W architekturach kaskadowych rolę enkodera pełni model ASR generujący tokeny tekstowe. W architekturach end-to-end enkoder przetwarza audio do ciągłych reprezentacji zachowując informacje paralingwistyczne.
Oficjalna
Komponent przetwarzający reprezentacje wejściowe i generujący reprezentacje odpowiedzi. W architekturach kaskadowych jest to model językowy (LLM) operujący na tekście. W architekturach end-to-end może to być LLM kondycjonowany na tokenach/embeddingach audio lub model sekwencja-do-sekwencji trenowany bezpośrednio na parach audio.
Oficjalna
Komponent generujący wyjściowy sygnał audio na podstawie reprezentacji odpowiedzi. W architekturach kaskadowych jest to moduł TTS (Text-to-Speech) operujący na tekście. W architekturach end-to-end dekoduje reprezentacje ukryte do spektrogramów lub tokenów audio, które następnie są przekształcane w wyjście przez model vocodera.
Oficjalna
Komponent wykrywający momentu początku i końca wypowiedzi użytkownika w strumieniu audio, kluczowy dla naturalnego zarządzania kolejnością mówienia w konwersacji. Współczesne modele VAD (np. Silero VAD) przetwarzają 30-milisekundowe ramki audio w czasie < 1 ms na CPU.
Oficjalna
Implementacja
W architekturze STT→LLM→TTS konwersja mowy na tekst w kroku STT nieodwracalnie usuwa informacje o prozodii, emocjach, tempie mówienia, wahaniach i cechach głosu. Synteza TTS musi odtworzyć ekspresję od zera, co prowadzi do utraty naturalności i kontekstu emocjonalnego rozmówcy.
Błędy STT (błędna transkrypcja) propagują się i mogą być wzmacniane przez LLM (nieprawidłowe rozumienie intencji) i TTS (generacja niepoprawnej lub nieadekwatnej odpowiedzi). Efekt kumulacji błędów jest szczególnie dotkliwy dla słów kluczowych, nazw własnych i żargonu specjalistycznego.
Modele bezpośrednie (end-to-end) wymagają par audio (wejście→wyjście), które są znacznie trudniejsze do zebrania niż dane tekstowe lub pary transkrypcji audio. Szczególnie problematyczne dla niskiego zasobu językowego (low-resource languages). Skutkuje to często gorszą generalizacją modeli bezpośrednich na rzadkich językach.
Systemy S2S w czasie rzeczywistym są wrażliwe na jitter sieciowy i jakość połączenia. Standardowe kodeki telefoniczne (np. 8 kHz G.711 w PSTN/Twilio) degradują jakość audio poniżej wymagań nowoczesnych modeli (typowo wytrenowanych na audio 16 kHz). GPT-4o Realtime i Gemini Live osiągają najlepsze wyniki z wideband audio 16 kHz, ale tracą przewagę nad kaskadą przy telefonii 8 kHz.
Ewolucja
Jia et al. opublikowali Translatotron (arXiv:1904.06037), pierwszy model sekwencja-do-sekwencji dla bezpośredniego tłumaczenia mowy na mowę bez pośredniego tekstu. Model przyjmował spektrogramy mel języka źródłowego i generował spektrogramy mel języka docelowego. Wykazano możliwość zachowania cech głosu mówcy przez enkoder głosowy. Jakość tłumaczenia była niższa niż w systemach kaskadowych, ale wykazano wykonalność podejścia.
Google opublikowało Translatotron 2 (Jia et al., 2022), poprawioną architekturę bezpośredniego tłumaczenia mowy na mowę, która osiągnęła jakość porównywalną do systemów kaskadowych na standardowych benchmarkach, eliminując przy tym podatność na klonowanie głosu obecną w Translatotron 1.
Kyutai Labs opublikowało Moshi (2024), speech-text foundation model dla real-time dialogu. Model obsługuje full-duplex — może jednocześnie słuchać i mówić. Opublikowane wagi modelu i dokumentacja techniczna. Osiągnięta latencja ~160 ms teoretycznie, ~200 ms w praktyce.
OpenAI udostępniło GPT-4o z natywnymi możliwościami speech-to-speech (mayo 2024 demo, październik 2024 API). LLaMA-Omni (2024) zademonstrował open-source podejście do end-to-end S2S opartego na LLaMA. Architektura end-to-end S2S weszła do produkcyjnego stosowania w skali komercyjnej.
Hiperparametry (konfigurowalne osie)
Fundamentalny wybór między architekturą kaskadową (STT→LLM→TTS) a architekturą bezpośrednią (end-to-end). Determinuje latencję, zachowanie prozodii, możliwości debugowania i wymagania dotyczące danych treningowych.
Czy system obsługuje half-duplex (turn-based, jedna strona mówi w danej chwili) czy full-duplex (obie strony mogą mówić jednocześnie, możliwość przerwania). Full-duplex wymaga zaawansowanego VAD i mechanizmów barge-in.
Format wejścia/wyjścia audio używany przez model: surowy sygnał (waveform), spektrogram mel, dyskretne tokeny audio (z kodera/dekodera audio np. EnCodec, SoundStream) lub embeddingi ciągłe.
Wąskie gardło obliczeniowe
W architekturach kaskadowych wąskim gardłem jest suma latencji poszczególnych etapów: ASR (transkrypcja) + LLM (generacja tekstu) + TTS (synteza mowy), typowo 2–4 sekundy end-to-end. W architekturach end-to-end wąskim gardłem jest autoregresyjna generacja tokenów audio przez model LLM (podobna do generacji tekstu, ale z większą objętością tokenów per sekunda mowy).
Paradygmat wykonania
Zarówno kaskadowe jak i end-to-end architektury S2S używają dense przetwarzania w każdym ze swoich komponentów. 'Stage-dependent' odnosi się do faktu, że różne komponenty (enkoder, LLM, dekoder) są aktywowane sekwencyjnie w toku przetwarzania jednego zapytania. W systemach full-duplex (np. Moshi) wejście i wyjście są przetwarzane równocześnie w modelu zdolnym do jednoczesnego 'słuchania i mówienia'.
Równoległość
Wielokrotne równoległe zapytania od różnych użytkowników mogą być obsługiwane równolegle przez różne instancje modelu (across devices). Streaming audio i nakładanie etapów (overlapping) może redukować latencję percepcyjną.
Wymagania sprzętowe
Zarówno komponenty modeli kaskadowych (Whisper, LLM, TTS) jak i modele end-to-end S2S (Moshi, LLaMA-Omni, GPT-4o backend) są architekturami Transformer wymagającymi GPU z Tensor Cores do efektywnej inferencji. Realtimowe przetwarzanie mowy z latencją <500 ms w skali produkcyjnej wymaga GPU.
Mniejsze modele STT (np. Whisper tiny/base) i VAD (np. Silero VAD) mogą działać efektywnie na CPU z rozszerzeniami AVX. Dla pełnych pipeline'ów kaskadowych z dużymi LLM CPU jest niewystarczający dla wymagań latencji real-time.