Robocikowo>ROBOCIKOWO
6 maja 2026 · 4 min lekturyGemma 4speculative decodingMulti-Token Prediction

Google przyspiesza Gemma 4 do 3x dzięki spekulatywnej dekodowaniu

Google przyspiesza Gemma 4 do 3x dzięki spekulatywnej dekodowaniu

Google udostępniło 6 maja 2026 roku eksperymentalne modele drafter Multi-Token Prediction (MTP) dla rodziny Gemma 4, które przyspieszają lokalną inferencję nawet trzykrotnie bez utraty jakości generowanych odpowiedzi. Technika opiera się na spekulatywnym dekodowaniu: lekki model pomocniczy przewiduje przyszłe tokeny, które następnie są weryfikowane równolegle przez główny model.

Najważniejsze w skrócie

  • Przyspieszenie inferencji od 2,5x do 3,1x w zależności od sprzętu — bez pogorszenia jakości odpowiedzi
  • Modele E2B i E4B na telefonach Pixel uzyskują odpowiednio 2,8x i 3,1x więcej tokenów na sekundę
  • Gemma 4 31B na układach Apple M4 przyspiesza 2,5x
  • Modele drafter MTP mają zaledwie 74 mln parametrów przy modelu docelowym liczącym miliardy
  • Draftery są dostępne na licencji Apache 2.0 i obsługiwane przez MLX, vLLM, SGLang i Ollama

Jak działa spekulatywne dekodowanie w Gemma 4

Standardowe modele językowe generują tokeny autoregresywnie — jeden po drugim, przy czym każdy nowy token wymaga przejścia całego modelu przez operacje wczytywania parametrów z pamięci. To wąskie gardło jest szczególnie odczuwalne na sprzęcie konsumenckim, gdzie pamięć VRAM ma znacznie niższą przepustowość niż pamięć HBM używana w centrach danych. Procesory obliczeniowe przez dużą część czasu czekają bezczynnie na dane — zamiast liczyć.

Multi-Token Prediction wykorzystuje ten czas czekania produktywnie. Lekki model drafter (74 mln parametrów w wariancie dla E2B) generuje spekulatywnie kilka kolejnych tokenów, korzystając z tej samej pamięci podręcznej klucz-wartość (key-value cache), którą już zbudował model główny — dzięki temu nie musi powtarzać obliczeń kontekstu. Wygenerowane tokeny są następnie weryfikowane przez model docelowy w jednym równoległym przejściu: jeśli model zgadza się z przewidywaniami draftera, cała sekwencja jest akceptowana. Jednocześnie model główny generuje jeden dodatkowy token normalną metodą.

Efekt: w czasie, który poprzednio zajmowało wygenerowanie jednego tokena, system może teraz wyprodukować kilka — sekwencję zaakceptowanych tokenów draftera plus token wygenerowany głównym modelem. Google opisuje uzysk jako „zero utraty jakości", co oznacza, że błędy charakterystyczne dla generatywnych modeli AI nie są wprowadzane przez spekulatywny proces — jeśli drafter się myli, model główny odrzuca token i dalej generuje samodzielnie.

Wyniki na konkretnym sprzęcie

Google podało pomiary dla kilku konfiguracji sprzętowych. Modele E2B i E4B na telefonach Pixel uzyskują przyspieszenia odpowiednio 2,8x i 3,1x — z dodatkowym efektem oszczędności baterii. Gemma 4 31B na Apple M4 przyspiesza 2,5x. Gemma 4 26B na karcie NVIDIA RTX PRO 6000 osiąga ok. 2x więcej tokenów na sekundę.

Wartości maksymalne (do 3x) zostają osiągnięte przy modelach mobilnych na Pixelu. Im większy model i im szybszy sprzęt, tym mniejszy względny zysk z MTP — bo na szybszym hardware wąskie gardło z przepustowością pamięci jest mniej dominujące. Niemniej nawet 2,5x na M4 to istotna poprawa praktycznego komfortu użytkowania lokalnych modeli AI.

Kontekst: Gemma 4 i strategia Google

Gemma 4 to rodzina modeli open-weight wydana przez Google wiosną 2026 roku na licencji Apache 2.0 — bardziej permisywnej niż własna licencja stosowana przy poprzednich wersjach Gemma. Modele są zoptymalizowane pod kątem uruchamiania lokalnego, ale bazują na tej samej technologii, która zasila frontowe modele Gemini. Google udostępnia je jako alternatywę dla użytkowników, którzy wolą przetwarzać dane lokalnie zamiast wysyłać je do chmury.

Architektura obejmuje modele MoE (Mixture of Experts) — w tym Gemma 4 26B — oraz modele gęste (Dense), jak Gemma 4 31B. Największy model gęsty można uruchomić na jednym akceleratorze high-end przy pełnej precyzji; kwantyzacja pozwala go uruchomić na konsumenckich kartach graficznych. Uruchomienie MTP to dobrze zsynchronizowane posunięcie: ogłoszenie pojawia się kilka tygodni po premierze samej Gemma 4, co sugeruje, że Google konsekwentnie buduje wokół rodziny modeli warstwę narzędzi inferencyjnych.

Dlaczego to ważne?

Lokalna inferencja jest dla AI tym, czym kompilatory były dla programowania: im szybsza i sprawniejsza, tym więcej programistów i entuzjastów może pracować bez zależności od zewnętrznych usług. Trzykrotne przyspieszenie na sprzęcie mobilnym i dwu-trzykrotne na desktopowych GPU to granica, po przekroczeniu której interakcja z modelem przestaje być odczuwalnie wolna dla użytkownika.

Spekulatywne dekodowanie nie jest nową techniką — eksperymentowały z nią wcześniej m.in. Meta AI przy Llama czy DeepSeek AI. Nowością jest to, że Google integruje je bezpośrednio z ekosystemem Gemma jako gotowe narzędzie dostępne przez cztery popularne frameworki (MLX, vLLM, SGLang, Ollama) i pod tą samą licencją Apache 2.0. Obniża to barierę wdrożenia do minimum. Ograniczeniem jest eksperymentalny status: Google wprost opisuje modele MTP jako „eksperymentalne", co oznacza, że nie gwarantuje ich stabilności API ani długoterminowego wsparcia na obecnych warunkach.

Co dalej?

  • Google nie podało harmonogramu przejścia MTP z fazy eksperymentalnej do produkcyjnej — status „experimental" należy traktować jako sygnał, że interfejsy mogą się zmieniać
  • Obsługa przez Ollama sugeruje, że Gemma 4 z MTP stanie się jednym ze standardowych modeli polecanych dla lokalnej inferencji w nadchodzących miesiącach
  • Wyniki na Pixelu wskazują na potencjał dla on-device AI w mobilnych zastosowaniach; Google zapewne będzie promować to podejście przy kolejnych aktualizacjach Android AI

Źródła

Udostępnij ten artykuł