Google DeepMind wydał DiffusionGemma — eksperymentalny model open-source, który przenosi mechanizm dyfuzji z generowania obrazów do generowania tekstu. Model produkuje 256 tokenów równolegle zamiast sekwencyjnie i samodzielnie koryguje błędy w trakcie procesu. Na pojedynczym GPU NVIDIA H100 osiąga ponad 1000 tokenów na sekundę — czterokrotnie szybciej niż standardowe modele autoregresywne w tym samym trybie.
Najważniejsze w skrócie
- DiffusionGemma generuje blok 256 tokenów równolegle — nie jeden po drugim jak klasyczne LLM
- Na H100 FP8: 1 008 tokenów/s, na H200: 1 288 tokenów/s — wg benchmarków vLLM
- Model 26B MoE aktywuje tylko 3,8B parametrów — mieści się w 18 GB VRAM na RTX 4090/5090
- Jakość generacji niższa niż standardowy Gemma 4 — Google samo to przyznaje w komunikacie
- Apache 2.0, natywna integracja z vLLM — dostępny jako open-source
Jak działa dyfuzja w tekście?
Standardowe modele językowe działają jak maszyna do pisania: jeden token za drugim, od lewej do prawej. Raz popełniony błąd zostaje "wpisany" — kolejne tokeny są już warunkowane na pomyłce, a model nie ma mechanizmu cofnięcia.
DiffusionGemma działa odwrotnie. Zaczyna od pustego bloku 256 tokenów wypełnionych losowym szumem, a następnie uruchamia wielokrotne przejścia — podobnie jak generatory obrazów z dyfuzją jak Stable Diffusion. W każdym przejściu ocenia każdą pozycję i "zafiksowuje" tokeny, co do których jest pewny. Niepewne pozycje są losowane od nowa i ponownie oceniane w następnym przejściu — tym razem z uwzględnieniem tego, co już zostało ustalone. Blok converges stopniowo. Zbudowany na architekturze Gemma 4 jako modelu bazowym, DiffusionGemma nie jest zwykłą wersją Gemmy ze zmienionym dekoderem — to całkowicie inny paradygmat generacji, w którym uwaga każdej pozycji obejmuje zarówno tokeny po lewej, jak i po prawej stronie.
Dwie architektoniczne przewagi
Samokorekcja
Model może zidentyfikować pozycje o niskiej pewności i ponownie je ocenić w kolejnym przejściu. Klasyczny model autoregresywny nie ma takiej możliwości.
Kontekst dwukierunkowy
Każdy token podczas generacji widzi wszystkie inne tokeny w bloku — zarówno wcześniejsze, jak i późniejsze. Dla zadań z ograniczeniami, gdzie prawidłowa odpowiedź zależy od kontekstu jeszcze niegenerowanego, to strukturalna przewaga.
Google zademonstrował obie właściwości na konkretnym teście: po fine-tuningu na zbiorze Sudoku model rozwiązywał 80% łamigłówek i osiągał zbieżność w 12 krokach zamiast 48. Szybkość wzrosła nie przez zmianę sprzętu, lecz przez wczesne zatrzymanie się gdy model był już wystarczająco pewny.
Gdzie jest szybszy, a gdzie nie
Google i vLLM opublikowali benchmarki na NVIDIA H100 i H200. Przy rozmiarze wsadu 1 (jeden użytkownik, dedykowane GPU) wersja FP8 na H100 osiąga 1 008 tokenów/s, na H200 — 1 288 tokenów/s. Dla porównania standardowy model autoregresywny w tych samych warunkach osiąga ok. 200 tokenów/s. To pięcio- do sześciokrotna przewaga.
Ale ta przewaga jest warunkowa. W środowiskach chmurowych z dużą liczbą równoczesnych żądań — gdzie GPU i tak jest w pełni obciążone obsługą setek zapytań — DiffusionGemma nie daje wymiernej poprawy. Mechanizm równoległego generowania bloku pomaga głównie wtedy, gdy GPU ma wolne moce obliczeniowe i wąskim gardłem jest przepustowość pamięci.
Kluczowy wniosek: DiffusionGemma to narzędzie do lokalnej generacji i zastosowań z niską współbieżnością — nie zamiennik dla wysokoprzepustowych systemów chmurowych.
Jakość a prędkość — kompromis
Google nie ukrywa ograniczeń. W oficjalnym komunikacie firma napisała wprost: "Dla zastosowań wymagających maksymalnej jakości rekomendujemy korzystanie ze standardowego Gemma 4." Benchmarki jakości potwierdzają — DiffusionGemma wypada słabiej od standardowego Gemma 4 na otwartych zadaniach generacji. Różnica zależy od zadania i nie jest jednolita, ale jest konsekwentna. Wyjątek stanowią zadania z ograniczeniami strukturalnymi: generacja kodu z wypełnianiem luk, generacja ustrukturyzowanych danych, zadania gdzie poprawność zależy od kontekstu po prawej stronie. Tam dwukierunkowy kontekst daje architektoniczne plus, które fine-tuning może wydobyć.
DiffusionGemma vs speculative decoding
Inżynierowie pytają: jak to się ma do speculative decoding — techniki przyspieszania generacji przez "zgadywanie" tokenów? Odpowiedź: to różne mechanizmy. Speculative decoding zostawia oryginalny model autoregresywny i używa mniejszego modelu do przewidywania kilku tokenów naraz. Duży model weryfikuje je jednym przejściem — jeśli zgadza się z własnym rozkładem, akceptuje. Wynik jakościowo identyczny z oryginalnym. DiffusionGemma robi coś fundamentalnie innego: tworzy "kanwę" 256 losowych tokenów i wielokrotnie odszumiając cały blok równolegle. To nie trick dekodowania — to inny paradygmat generacji.
Dlaczego to ważne?
DiffusionGemma jest pierwszym dyfuzyjnym modelem językowym natywnie zintegrowanym z vLLM — wiodącą platformą do serwowania LLM w produkcji. To zmienia kalkul. Dotychczas przyspieszenie lokalnej generacji oznaczało albo mniejszy model (gorszy jakościowo) albo speculative decoding (skomplikowane pipeline). DiffusionGemma oferuje trzecią ścieżkę: ten sam rozmiar parametrów, ten sam interfejs vLLM, dramatycznie wyższa prędkość — przy akceptowalnym kompromisie jakościowym dla określonych zastosowań. Dla urządzeń brzegowych, systemów działających offline i zastosowań wymagających niskiej latencji na jednym GPU — to pierwsza opcja zasługująca na poważne testy. Dla każdego kto budował pipeline na bazie speculative decoding DiffusionGemma nie zastępuje go bezpośrednio — ale sygnalizuje, że dyfuzja tekstu dojrzewa do produkcyjnego użytku.
Co dalej?
- Google zapowiedziało interfejs ModelState w vLLM jako fundament dla kolejnych modeli dyfuzyjnych — oczekiwać można pojawienia się SpecialistDiffusion lub następnych wersji DiffusionGemma
- Fine-tuning DiffusionGemma na zadaniach z ograniczeniami strukturalnymi — kod, SQL, JSON — to najbardziej obiecująca ścieżka zastosowań produkcyjnych
- Modele dyfuzyjne dla tekstu są aktywnym obszarem badań od 2023 roku — komercjalizacja Mercury Coder przez Inception Labs oraz DiffusionGemma od Google sugerują przyspieszenie adopcji w 2026-2027





