Google przez lata pokazywało na scenie prototypy tłumaczenia głosowego w czasie rzeczywistym, ale każdy z nich wymagał konkretnego sprzętu — słuchawek Pixel Buds, smartfona Google lub dedykowanej konfiguracji. Dziś, 9 czerwca 2026 roku, firma ogłosiła Gemini 3.5 Live Translate: model speech-to-speech, który rozmywa te wymagania sprzętowe i przenosi tłumaczenie głosowe do zwykłej aplikacji Google Translate na Androidzie i iOS.
Najważniejsze w skrócie
- Gemini 3.5 Live Translate obsługuje ponad 70 języków w czasie rzeczywistym
- Model zachowuje ton, tempo i wysokość głosu oryginalnego rozmówcy
- Każdy generowany strumień audio jest trwale oznaczany wodoznakiem SynthID
- Tryb "listening mode" (słuchanie przez głośnik słuchawkowy) dostępny tylko na Androidzie
- Google Meet z nowym modelem dostępne dla wybranych klientów enterprise już w czerwcu
Koniec słuchawkowego obowiązku
Do niedawna dostęp do tłumaczenia na żywo w ekosystemie Google wymagał słuchawek Pixel Buds podłączonych do telefonu z Androidem. Pod koniec 2025 roku firma rozszerzyła obsługę na dowolne słuchawki i na aplikację iOS, ale nadal zakładała, że użytkownik ma cokolwiek w uszach.
Gemini 3.5 Live Translate idzie krok dalej. Na Androidzie pojawia się "listening mode": wystarczy przyłożyć telefon do ucha jak przy zwykłej rozmowie. Tłumaczone audio trafia bezpośrednio do głośnika słuchawkowego telefonu, co pozwala np. wsłuchiwać się w obcojęzycznego przewodnika turystycznego bez żadnego dodatkowego akcesorium. Funkcja na razie działa tylko na Androidzie — iOS jeszcze jej nie obsługuje.
Model radzi sobie z automatycznym wykrywaniem języka, więc deweloper ani użytkownik nie musi ręcznie konfigurować par językowych. Google podaje, że Gemini 3.5 Live Translate nadąża za naturalną rozmową z kilkusekundowym opóźnieniem — na tyle małym, by nie zakłócać konwersacji.
Jak model brzmi i co dodaje SynthID
Poprzednie rozwiązania do tłumaczenia głosowego często generowały mechanicznie brzmiące syntezy mowy. Gemini 3.5 Live Translate przetwarza nie tylko treść, ale i cechy głosu rozmówcy — intonację, pacing, wysokość tonu. Efekt, jak pokazują oficjalne dema Google, jest wyraźnie bardziej naturalny niż generyczne TTS (text-to-speech).
Mimo to Google postanowiło nie ukrywać, że po drugiej stronie stoi model AI. Każdy strumień audio wygenerowany przez Gemini 3.5 Live Translate zawiera cyfrowy wodoznak SynthID wbudowany w falę dźwiękową. Jak podaje Google, nie ma na razie możliwości usunięcia tego znaku, co oznacza, że każde tłumaczenie — niezależnie od tego, jak naturalnie brzmi — jest identyfikowalne jako treść wygenerowana przez AI. Model speech-to-speech tej klasy wcześniej nie miał odpowiednika dostępnego publicznie.
SynthID to niewidoczna dla ucha metadana osadzona w dźwięku; wcześniej Google stosowało ją do oznaczania wygenerowanych obrazów. Przeniesienie technologii do domeny audio to pierwsza tak szeroka implementacja wodoznaków dźwiękowych w komercyjnym produkcie Google.
Gdzie i kiedy będzie dostępny
Model wchodzi do ekosystemu Google kilkoma kanałami jednocześnie. Deweloperzy mogą już korzystać z public preview w Gemini Live API lub Google AI Studio — model przetwarza strumień mowy ciągle, bez konieczności ręcznego zarządzania wielojęzycznym wejściem.
W Google Meet tłumaczenie w czasie rzeczywistym z Gemini 3.5 trafi do wybranych klientów enterprise już w czerwcu 2026, przed szerszym wdrożeniem. Google zapowiada, że interfejs Meet zostanie przeprojektowany, by Live Translate był bardziej widoczny i łatwo dostępny.
Najbardziej masowy kanał dystrybucji to aplikacja Google Translate na Androidzie i iOS — aktualizacja z Gemini 3.5 ma trafić do użytkowników "wkrótce", bez konkretnej daty. Wcześniejszy model w Translate działał na bazie starszej architektury i nie zachowywał cech głosowych rozmówcy w takim stopniu jak Gemini 3.5 Flash i nowe rozwiązanie.
Dla porównania: Apple zaprezentowała na WWDC 2026 podobne funkcje tłumaczenia głosowego w ramach Siri AI, ale bazujące na modelu Gemini 3 (według wcześniejszych doniesień o współpracy Apple-Google przy Private Cloud Compute). Microsoft Translator nie oferuje analogicznego zachowania głosu rozmówcy. Gemini 3.5 Live Translate to jak dotąd najbardziej zaawansowane publicznie dostępne rozwiązanie speech-to-speech zachowujące cechy głosu.
Dlaczego to ważne?
Tłumaczenie głosowe w czasie rzeczywistym jest technologicznie złożone nie ze względu na samą translację tekstu — to Google robi od lat — lecz ze względu na konieczność zachowania płynności i naturalności mowy przy minimalnym opóźnieniu. Gemini 3.5 Live Translate przesuwa ten poprzecznik: eliminuje wymóg specjalistycznych słuchawek i zachowuje indywidualne cechy głosu rozmówcy.
Ważniejszy jest jednak kontekst. Miliardy ludzi nadal nie mówi w tym samym języku co ich lekarze, nauczyciele czy pracodawcy. Narzędzie, które działa w tle aplikacji telefonicznej bez żadnego dodatkowego sprzętu, ma realny potencjał do obniżenia tej bariery — szczególnie w krajach rozwijających się, gdzie smartfon jest jedynym urządzeniem dostępnym użytkownikowi.
Jednocześnie obowiązkowy wodoznak SynthID to precedens: Google otwarcie przyznaje, że masowe tłumaczenie AI tworzy ryzyko dezinformacji i wyznacza własny standard odpowiedzialności. Wbudowanie znaku w warstwę audio utrudnia nieuczciwe użycie, choć nie uniemożliwia go całkowicie — bo wyciek audio z oryginalnej aplikacji bez re-enkodowania jest możliwy.
Co dalej?
- Google zapowiedział wersję Pro modelu Gemini 3.5 w najbliższych tygodniach — prawdopodobnie z lepszą jakością głosu i niższymi latencjami niż aktualna wersja Flash
- Szersze wdrożenie w Google Meet (poza wybranymi klientami enterprise) nie ma ogłoszonej daty
- "Listening mode" na iOS nie jest jeszcze dostępny — Apple i Google nie skomentowały planów jego uruchomienia poza Androidem





