DiffusionGemma — Google DeepMind wydaje model generujący tekst 4x szybciej

Google DeepMind wydał DiffusionGemma — eksperymentalny model open-source, który przenosi mechanizm dyfuzji z generowania obrazów do generowania tekstu. Model produkuje 256 tokenów równolegle zamiast sekwencyjnie i samodzielnie koryguje błędy w trakcie procesu. Na pojedynczym GPU NVIDIA H100 osiąga ponad 1000 tokenów na sekundę — czterokrotnie szybciej niż standardowe modele autoregresywne w tym samym trybie.

Najważniejsze w skrócie

DiffusionGemma generuje blok 256 tokenów równolegle — nie jeden po drugim jak klasyczne LLM
Na H100 FP8: 1 008 tokenów/s, na H200: 1 288 tokenów/s — wg benchmarków vLLM
Model 26B MoE aktywuje tylko 3,8B parametrów — mieści się w 18 GB VRAM na RTX 4090/5090
Jakość generacji niższa niż standardowy Gemma 4 — Google samo to przyznaje w komunikacie
Apache 2.0, natywna integracja z vLLM — dostępny jako open-source

Jak działa dyfuzja w tekście?

Standardowe modele językowe działają jak maszyna do pisania: jeden token za drugim, od lewej do prawej. Raz popełniony błąd zostaje "wpisany" — kolejne tokeny są już warunkowane na pomyłce, a model nie ma mechanizmu cofnięcia.

DiffusionGemma działa odwrotnie. Zaczyna od pustego bloku 256 tokenów wypełnionych losowym szumem, a następnie uruchamia wielokrotne przejścia — podobnie jak generatory obrazów z dyfuzją jak Stable Diffusion. W każdym przejściu ocenia każdą pozycję i "zafiksowuje" tokeny, co do których jest pewny. Niepewne pozycje są losowane od nowa i ponownie oceniane w następnym przejściu — tym razem z uwzględnieniem tego, co już zostało ustalone. Blok converges stopniowo. Zbudowany na architekturze Gemma 4 jako modelu bazowym, DiffusionGemma nie jest zwykłą wersją Gemmy ze zmienionym dekoderem — to całkowicie inny paradygmat generacji, w którym uwaga każdej pozycji obejmuje zarówno tokeny po lewej, jak i po prawej stronie.

Dwie architektoniczne przewagi

Samokorekcja

Model może zidentyfikować pozycje o niskiej pewności i ponownie je ocenić w kolejnym przejściu. Klasyczny model autoregresywny nie ma takiej możliwości.

Kontekst dwukierunkowy

Każdy token podczas generacji widzi wszystkie inne tokeny w bloku — zarówno wcześniejsze, jak i późniejsze. Dla zadań z ograniczeniami, gdzie prawidłowa odpowiedź zależy od kontekstu jeszcze niegenerowanego, to strukturalna przewaga.

Google zademonstrował obie właściwości na konkretnym teście: po fine-tuningu na zbiorze Sudoku model rozwiązywał 80% łamigłówek i osiągał zbieżność w 12 krokach zamiast 48. Szybkość wzrosła nie przez zmianę sprzętu, lecz przez wczesne zatrzymanie się gdy model był już wystarczająco pewny.

Gdzie jest szybszy, a gdzie nie

Google i vLLM opublikowali benchmarki na NVIDIA H100 i H200. Przy rozmiarze wsadu 1 (jeden użytkownik, dedykowane GPU) wersja FP8 na H100 osiąga 1 008 tokenów/s, na H200 — 1 288 tokenów/s. Dla porównania standardowy model autoregresywny w tych samych warunkach osiąga ok. 200 tokenów/s. To pięcio- do sześciokrotna przewaga.

Ale ta przewaga jest warunkowa. W środowiskach chmurowych z dużą liczbą równoczesnych żądań — gdzie GPU i tak jest w pełni obciążone obsługą setek zapytań — DiffusionGemma nie daje wymiernej poprawy. Mechanizm równoległego generowania bloku pomaga głównie wtedy, gdy GPU ma wolne moce obliczeniowe i wąskim gardłem jest przepustowość pamięci.

Kluczowy wniosek: DiffusionGemma to narzędzie do lokalnej generacji i zastosowań z niską współbieżnością — nie zamiennik dla wysokoprzepustowych systemów chmurowych.

Jakość a prędkość — kompromis

Google nie ukrywa ograniczeń. W oficjalnym komunikacie firma napisała wprost: "Dla zastosowań wymagających maksymalnej jakości rekomendujemy korzystanie ze standardowego Gemma 4." Benchmarki jakości potwierdzają — DiffusionGemma wypada słabiej od standardowego Gemma 4 na otwartych zadaniach generacji. Różnica zależy od zadania i nie jest jednolita, ale jest konsekwentna. Wyjątek stanowią zadania z ograniczeniami strukturalnymi: generacja kodu z wypełnianiem luk, generacja ustrukturyzowanych danych, zadania gdzie poprawność zależy od kontekstu po prawej stronie. Tam dwukierunkowy kontekst daje architektoniczne plus, które fine-tuning może wydobyć.

DiffusionGemma vs speculative decoding

Inżynierowie pytają: jak to się ma do speculative decoding — techniki przyspieszania generacji przez "zgadywanie" tokenów? Odpowiedź: to różne mechanizmy. Speculative decoding zostawia oryginalny model autoregresywny i używa mniejszego modelu do przewidywania kilku tokenów naraz. Duży model weryfikuje je jednym przejściem — jeśli zgadza się z własnym rozkładem, akceptuje. Wynik jakościowo identyczny z oryginalnym. DiffusionGemma robi coś fundamentalnie innego: tworzy "kanwę" 256 losowych tokenów i wielokrotnie odszumiając cały blok równolegle. To nie trick dekodowania — to inny paradygmat generacji.

Dlaczego to ważne?

DiffusionGemma jest pierwszym dyfuzyjnym modelem językowym natywnie zintegrowanym z vLLM — wiodącą platformą do serwowania LLM w produkcji. To zmienia kalkul. Dotychczas przyspieszenie lokalnej generacji oznaczało albo mniejszy model (gorszy jakościowo) albo speculative decoding (skomplikowane pipeline). DiffusionGemma oferuje trzecią ścieżkę: ten sam rozmiar parametrów, ten sam interfejs vLLM, dramatycznie wyższa prędkość — przy akceptowalnym kompromisie jakościowym dla określonych zastosowań. Dla urządzeń brzegowych, systemów działających offline i zastosowań wymagających niskiej latencji na jednym GPU — to pierwsza opcja zasługująca na poważne testy. Dla każdego kto budował pipeline na bazie speculative decoding DiffusionGemma nie zastępuje go bezpośrednio — ale sygnalizuje, że dyfuzja tekstu dojrzewa do produkcyjnego użytku.

Co dalej?

Google zapowiedziało interfejs ModelState w vLLM jako fundament dla kolejnych modeli dyfuzyjnych — oczekiwać można pojawienia się SpecialistDiffusion lub następnych wersji DiffusionGemma
Fine-tuning DiffusionGemma na zadaniach z ograniczeniami strukturalnymi — kod, SQL, JSON — to najbardziej obiecująca ścieżka zastosowań produkcyjnych
Modele dyfuzyjne dla tekstu są aktywnym obszarem badań od 2023 roku — komercjalizacja Mercury Coder przez Inception Labs oraz DiffusionGemma od Google sugerują przyspieszenie adopcji w 2026-2027

DiffusionGemma: Google DeepMind otwiera nową erę lokalnej generacji tekstu

Najważniejsze w skrócie

Jak działa dyfuzja w tekście?

Dwie architektoniczne przewagi

Samokorekcja

Kontekst dwukierunkowy

Gdzie jest szybszy, a gdzie nie

Jakość a prędkość — kompromis

DiffusionGemma vs speculative decoding

Dlaczego to ważne?

Co dalej?

Źródła

Czytaj następny

Fala zwolnień pod hasłem AI staje się beczką prochu

Powiązane artykuły

NASA uruchamia model Gemma 3 na orbicie do analizy zdjęć satelitarnych

Etched wart 10,3 mld USD — chip do inferencji AI kontra GPU

GLM-5.2 tańszy 5× od Opus 4.8 — kosztem wyników w kodowaniu

Fair use i distillation: pomysł na przewagę otwartego AI USA