Gemini 3.5 Live Translate: tłumaczenie głosowe bez słuchawek z wodoznakiem AI

Google przez lata pokazywało na scenie prototypy tłumaczenia głosowego w czasie rzeczywistym, ale każdy z nich wymagał konkretnego sprzętu — słuchawek Pixel Buds, smartfona Google lub dedykowanej konfiguracji. Dziś, 9 czerwca 2026 roku, firma ogłosiła Gemini 3.5 Live Translate: model speech-to-speech, który rozmywa te wymagania sprzętowe i przenosi tłumaczenie głosowe do zwykłej aplikacji Google Translate na Androidzie i iOS.

Najważniejsze w skrócie

Gemini 3.5 Live Translate obsługuje ponad 70 języków w czasie rzeczywistym
Model zachowuje ton, tempo i wysokość głosu oryginalnego rozmówcy
Każdy generowany strumień audio jest trwale oznaczany wodoznakiem SynthID
Tryb "listening mode" (słuchanie przez głośnik słuchawkowy) dostępny tylko na Androidzie
Google Meet z nowym modelem dostępne dla wybranych klientów enterprise już w czerwcu

Koniec słuchawkowego obowiązku

Do niedawna dostęp do tłumaczenia na żywo w ekosystemie Google wymagał słuchawek Pixel Buds podłączonych do telefonu z Androidem. Pod koniec 2025 roku firma rozszerzyła obsługę na dowolne słuchawki i na aplikację iOS, ale nadal zakładała, że użytkownik ma cokolwiek w uszach.

Gemini 3.5 Live Translate idzie krok dalej. Na Androidzie pojawia się "listening mode": wystarczy przyłożyć telefon do ucha jak przy zwykłej rozmowie. Tłumaczone audio trafia bezpośrednio do głośnika słuchawkowego telefonu, co pozwala np. wsłuchiwać się w obcojęzycznego przewodnika turystycznego bez żadnego dodatkowego akcesorium. Funkcja na razie działa tylko na Androidzie — iOS jeszcze jej nie obsługuje.

Model radzi sobie z automatycznym wykrywaniem języka, więc deweloper ani użytkownik nie musi ręcznie konfigurować par językowych. Google podaje, że Gemini 3.5 Live Translate nadąża za naturalną rozmową z kilkusekundowym opóźnieniem — na tyle małym, by nie zakłócać konwersacji.

Jak model brzmi i co dodaje SynthID

Poprzednie rozwiązania do tłumaczenia głosowego często generowały mechanicznie brzmiące syntezy mowy. Gemini 3.5 Live Translate przetwarza nie tylko treść, ale i cechy głosu rozmówcy — intonację, pacing, wysokość tonu. Efekt, jak pokazują oficjalne dema Google, jest wyraźnie bardziej naturalny niż generyczne TTS (text-to-speech).

Mimo to Google postanowiło nie ukrywać, że po drugiej stronie stoi model AI. Każdy strumień audio wygenerowany przez Gemini 3.5 Live Translate zawiera cyfrowy wodoznak SynthID wbudowany w falę dźwiękową. Jak podaje Google, nie ma na razie możliwości usunięcia tego znaku, co oznacza, że każde tłumaczenie — niezależnie od tego, jak naturalnie brzmi — jest identyfikowalne jako treść wygenerowana przez AI. Model speech-to-speech tej klasy wcześniej nie miał odpowiednika dostępnego publicznie.

SynthID to niewidoczna dla ucha metadana osadzona w dźwięku; wcześniej Google stosowało ją do oznaczania wygenerowanych obrazów. Przeniesienie technologii do domeny audio to pierwsza tak szeroka implementacja wodoznaków dźwiękowych w komercyjnym produkcie Google.

Gdzie i kiedy będzie dostępny

Model wchodzi do ekosystemu Google kilkoma kanałami jednocześnie. Deweloperzy mogą już korzystać z public preview w Gemini Live API lub Google AI Studio — model przetwarza strumień mowy ciągle, bez konieczności ręcznego zarządzania wielojęzycznym wejściem.

W Google Meet tłumaczenie w czasie rzeczywistym z Gemini 3.5 trafi do wybranych klientów enterprise już w czerwcu 2026, przed szerszym wdrożeniem. Google zapowiada, że interfejs Meet zostanie przeprojektowany, by Live Translate był bardziej widoczny i łatwo dostępny.

Najbardziej masowy kanał dystrybucji to aplikacja Google Translate na Androidzie i iOS — aktualizacja z Gemini 3.5 ma trafić do użytkowników "wkrótce", bez konkretnej daty. Wcześniejszy model w Translate działał na bazie starszej architektury i nie zachowywał cech głosowych rozmówcy w takim stopniu jak Gemini 3.5 Flash i nowe rozwiązanie.

Dla porównania: Apple zaprezentowała na WWDC 2026 podobne funkcje tłumaczenia głosowego w ramach Siri AI, ale bazujące na modelu Gemini 3 (według wcześniejszych doniesień o współpracy Apple-Google przy Private Cloud Compute). Microsoft Translator nie oferuje analogicznego zachowania głosu rozmówcy. Gemini 3.5 Live Translate to jak dotąd najbardziej zaawansowane publicznie dostępne rozwiązanie speech-to-speech zachowujące cechy głosu.

Dlaczego to ważne?

Tłumaczenie głosowe w czasie rzeczywistym jest technologicznie złożone nie ze względu na samą translację tekstu — to Google robi od lat — lecz ze względu na konieczność zachowania płynności i naturalności mowy przy minimalnym opóźnieniu. Gemini 3.5 Live Translate przesuwa ten poprzecznik: eliminuje wymóg specjalistycznych słuchawek i zachowuje indywidualne cechy głosu rozmówcy.

Ważniejszy jest jednak kontekst. Miliardy ludzi nadal nie mówi w tym samym języku co ich lekarze, nauczyciele czy pracodawcy. Narzędzie, które działa w tle aplikacji telefonicznej bez żadnego dodatkowego sprzętu, ma realny potencjał do obniżenia tej bariery — szczególnie w krajach rozwijających się, gdzie smartfon jest jedynym urządzeniem dostępnym użytkownikowi.

Jednocześnie obowiązkowy wodoznak SynthID to precedens: Google otwarcie przyznaje, że masowe tłumaczenie AI tworzy ryzyko dezinformacji i wyznacza własny standard odpowiedzialności. Wbudowanie znaku w warstwę audio utrudnia nieuczciwe użycie, choć nie uniemożliwia go całkowicie — bo wyciek audio z oryginalnej aplikacji bez re-enkodowania jest możliwy.

Co dalej?

Google zapowiedział wersję Pro modelu Gemini 3.5 w najbliższych tygodniach — prawdopodobnie z lepszą jakością głosu i niższymi latencjami niż aktualna wersja Flash
Szersze wdrożenie w Google Meet (poza wybranymi klientami enterprise) nie ma ogłoszonej daty
"Listening mode" na iOS nie jest jeszcze dostępny — Apple i Google nie skomentowały planów jego uruchomienia poza Androidem