Nemotron-Labs-Diffusion: NVIDIA łączy AR i diffusion decoding

NVIDIA opublikowała rodzinę modeli Nemotron-Labs-Diffusion w rozmiarach 3B, 8B i 14B — pierwszą komercyjną implementację architektury łączącej klasyczną autoregresję z block-wise diffusion decoding. Modele dostępne są jako open-source na Hugging Face, a techniczna dokumentacja ukazała się na blogu NVIDIA Research.

Najważniejsze w skrócie

NVIDIA wypuściła trzy modele językowe (3B, 8B, 14B parametrów) jako open-source — każdy może je pobrać, uruchomić lokalnie i dotrenować pod swoje potrzeby.
Modele potrafią pisać tekst na trzy różne sposoby i przełączać się między nimi w locie: klasycznie litera-po-literze, generując całe bloki tokenów równolegle, albo „spekulacyjnie" — szybko zgadując i weryfikując.
Na pojedynczym użytkowniku (np. czat z asystentem, lokalny coding) modele generują tekst nawet 3-4 razy szybciej niż klasyczne LLM-y porównywalnej wielkości — przy tej samej jakości odpowiedzi.
Na najnowszej platformie NVIDIA GB200 model 8B pokonuje konkurencję (Qwen3-Eagle3) o 40% w przepustowości — przy tej samej liczbie obsługiwanych użytkowników.
Jakość odpowiedzi (matematyka, kodowanie, rozumowanie) trzyma poziom Qwen3-8B i Mistral 8B — czyli czołówki modeli tej klasy. Nie ma kompromisu między szybkością a inteligencją.
Ograniczenie: zysk szybkości znika przy serwerach obsługujących setki użytkowników naraz. NLD to broń dla scenariuszy single-user, nie dla masowego API.

Trzeci tryb to nowość — Self-Speculation

Żeby zrozumieć co to jest Self-Speculation, trzeba najpierw wiedzieć jak działają dwa pozostałe tryby.

Tryb AR (autoregresja) to klasyka — model generuje tekst token po tokenie, od lewej do prawej. Jak pisanie zdania litera po literze: szybki start, ale każdy token wymaga pełnego przebiegu przez sieć. Wolno, ale przewidywalnie.
Tryb Diffusion działa inaczej — model dostaje cały blok zamaskowanych tokenów (np. 32 puste pola) i odgaduje je równolegle, w kilku rundach „odszumiania". Jak rozwiązywanie krzyżówki: widzisz całą planszę naraz i wpisujesz słowa w wielu miejscach jednocześnie. Szybciej niż AR, ale jakość bywa gorsza bo model musi zgadnąć wszystkie pozycje na raz.

Self-Speculation to trick łączący jedno z drugim. Pomysł: ten sam model uruchamiamy w dwóch rolach jednocześnie.

Wersja „szkicowa" (lekka konfiguracja warstw) — biegnie szybko i typuje 6-8 kandydatów na kolejne tokeny. Można to porównać do asystenta, który strzela odpowiedź na szybko.
Wersja „weryfikująca" (pełna konfiguracja) — sprawdza wszystkie kandydatury jednym przebiegiem. Akceptuje te, które sama by wygenerowała, odrzuca resztę.

Kluczowy zysk: jeden przebieg przez duży model = 5,9 zaakceptowanych tokenów (TPF — tokens per forward pass), zamiast 1 jak w AR. To stąd biorą się przyspieszenia 3-4×.

To adaptacja Speculative Decoding z jedną różnicą: zamiast trenować osobny mały model jako „szkicownika" (jak robi to np. Eagle3), NVIDIA używa tego samego modelu w zubożonej konfiguracji. Stąd nazwa Self-Speculation — model spekuluje sam ze sobą. Mniej infrastruktury, mniej parametrów do utrzymania.

Ważne zastrzeżenie dotyczące skali wdrożenia. Cały zysk z Self-Speculation i Diffusion znika gdy serwer obsługuje wielu użytkowników naraz. Wyjaśnienie:

Mała liczba sesji (1-64 użytkowników naraz): GPU ma wolne moce obliczeniowe — Self-Speculation wypełnia je weryfikując kandydatów. Każdy dodatkowy „strzał" kosztuje grosze, bo i tak procesor by się nudził. Tu wygrywa NLD.
Duża liczba sesji (64+ użytkowników naraz): GPU już jest w pełni obciążony przetwarzaniem AR dla wszystkich sesji równolegle. Dorzucanie kandydatów do weryfikacji nic nie daje, bo nie ma wolnych zasobów. Tu wygrywa klasyczny AR — i NVIDIA otwarcie to przyznaje, zalecając przełączanie trybów w zależności od obciążenia serwera.

Innymi słowy: NLD błyszczy w scenariuszach single-user / low-concurrency (ChatGPT-podobny chat z jedną osobą, coding assistant, lokalne inferencje na stacji roboczej). Dla masowej platformy API obsługującej tysiące równoczesnych zapytań przewaga zanika.

Diagram trzech trybów inferencji Nemotron-Labs-Diffusion: AR, Diffusion, Self-Speculation oraz wspólny dual-loss training — Trzy tryby inferencji NLD oraz wspólna receptura dual-loss. Źródło: opracowanie własne na podstawie NVIDIA Research.

Jak trenowano modele — Dual Loss i Global Loss Averaging

Receptura treningowa startuje z modeli Ministral 3B/8B/14B. Etap pierwszy: 1 bilion tokenów pre-trainingu w trybie AR-only. Etap drugi: 300 miliardów tokenów wspólnego treningu AR + Diffusion z techniką Global Loss Averaging — oba sygnały straty są uśredniane, co eliminuje problem niestabilności gradientów przy równoległym treningu dwóch głowic na tym samym backbonie. Całość kończy się SFT i wyrównaniem VLM.

Kluczowe techniki implementacyjne: Full Loss Averaging dla stabilizacji treningu, DP-rank Variable Encoding dla elastycznej długości sekwencji, Strict Causal Masking (blokowanie przywracania attention w kierunku wstecznym), oraz LoRA-grown draft — super-mały model poboczny rozwijany przez LoRA z wag modelu głównego, bez zewnętrznych parametrów.

Benchmarki: gdzie model wyróżnia się, a gdzie ma ograniczenia

Najważniejszy wynik z benchmarków to SPEED-Bench — mierzący efektywność inferencji w trybie skalarnym (single-user, niskie partie). Nemotron-Labs-Diffusion-8B osiąga średnią długość akceptacji 8.7 tokenów na krok, co przekłada się na 5.9 TPF na GB200. Dla porównania: Qwen3-5B-MTP osiąga 4.7 TPF, Qwen3-8B-Eagle3 — 2.81 TPF. Dane dotyczą inferencji dla pojedynczego użytkownika — przy dużej równoległości obraz jest inny.

W standardowych benchmarach jakości (QA, coding, math, reasoning), zestawionych w tabeli 1 technicznego raportu, modele Nemotron-Labs-Diffusion-8B uzyskują wyniki zbliżone lub lepsze od wcześniejszych dLLM (LLaDA, Dream, SDAR), z poprawą 9–22.4% na dużych zestawach testowych. NVIDIA zastrzega, że główna przewaga koncentruje się na metrykach efektywności, nie na SOTA accuracy — modele celują w praktyczne wdrożenia, nie w zwycięstwo w rankingach zamkniętych.

Przyspieszenie NLD 8B vs. punkt odniesienia AR (single user)

Platforma	Precyzja	Przyspieszenie vs. AR
DGX Spark	FP8	3.14×
DGX Spark	INT4	2.7× (112 vs 41.8 tok/s AR)
RTX Pro 6000	FP8	3.4×
RTX Pro 6000	INT4	2.3×
GB200	FP8	3.3× (850 tok/s)

Wykres słupkowy: przyspieszenie NLD 8B względem autoregresji — 2,4× (diffusion), 3,4× (samospekulacja, H100), 4,0× (GB200), 4,8× (GB200 + optymalizacje) — NLD 8B vs autoregresyjna baseline na różnych platformach. Źródło: NVIDIA, listopad 2025.

Pozycja względem konkurencji i wcześniejszych dLLM

W ekosystemie dLLM (diffusion language models) funkcjonują wcześniejsze projekty: LLaDA (Meta AI Research), Dream i SDAR — wszystkie eksperymentalne, bez pełnych pipeline'ów produkcyjnych. Nemotron-Labs-Diffusion jest pierwszym modelem tej klasy ze: zintegrowanym trybem Self-Speculation, opublikowanymi recepturami treningowymi oraz obsługą wnioskowania klientów przez NLD (NVIDIA Language Deployment). Po stronie autoregresywnej, głównym punktem porównań jest Qwen3-8B z nagłówkiem Eagle3 — tutaj Nemotron osiąga 1.4× wyższy throughput na GB200 przy tej samej liczbie równoległych sesji.

Ważne ograniczenie: przewaga throughput jest widoczna przy małej równoległości (<64 sesji). Przy dużym ruchu (>64 sesji) architektura AR ma porównywalny lub lepszy throughput systemowy, co NVIDIA przyznaje wprost w raporcie technicznym — dostępnym pod adresem cloudfront.net.

Benchmarki jakościowe — porównanie z konkurencją

Poniższa tabela zestawia średnie wyniki accuracy modelu Nemotron-Labs-Diffusion-8B z konkurencyjnymi dLLM oraz autoregresywnym baseline Qwen3-8B (źródło: raport techniczny NVIDIA, Table 3).

Model	QA + Instruct	Coding	Math	Średnia
Qwen3-8B (AR)	68.21	49.45	88.28	64.85
Qwen3-4B (AR)	67.37	36.20	85.20	62.75
Ministral-8B (AR)	63.07	38.07	70.91	57.36
LLaDA-8B (dLLM)	46.32	7.32	11.00	24.71
Dream-7B (dLLM)	54.50	24.07	46.10	40.45
SDAR-8B (dLLM)	58.06	24.05	53.94	43.69
NLD-8B (Diff)	64.41	36.49	74.50	57.29
NLD-8B (Quad SS)	67.42	38.07	78.95	60.83

Najważniejszy wniosek: Nemotron-Labs-Diffusion-8B w trybie Quadratic Self-Speculation osiąga 60.83 średniej accuracy — najwyższy wynik wśród modeli diffusion (LLaDA 24.71, Dream 40.45, SDAR 43.69) i wynik porównywalny z autoregresywnym Qwen3-4B (62.75). Do Qwen3-8B (64.85) traci ok. 4 punkty, co przy 3× wyższym throughput jest akceptowalnym kompromisem dla wdrożeń produkcyjnych.

Diagram Pareto: throughput GPU vs per-user

Najsilniejszy argument architektoniczny pochodzi z analizy Pareto. Idealna pozycja na takim wykresie to prawy górny róg — wysoki throughput jednocześnie dla pojedynczego użytkownika i dla całego GPU. Nemotron-Labs-Diffusion-8B w trybie Self-Speculation dominuje tam, gdzie autoregresja (czarna krzywa) i Qwen3-8B-Eagle3 (cyjan) muszą wybierać między jedną a drugą metryką.

Wykres Pareto: przepustowość GPU vs przepustowość na użytkownika dla AR, Qwen3-Eagle3 i NLD-8B na GB200 — krzywa NLD dominuje — Pareto na NVIDIA GB200. Krzywa NLD (zielona) dominuje konkurencję w całym zakresie współbieżności.

Krzywa NLD (zielona) leży powyżej i na prawo od konkurencji w całym zakresie. Przy c=128 (concurrency 128 sesji) Self-Speculation osiąga ok. 10 000 tok/sec łącznie na GPU GB200 — 3.3× więcej niż klasyczny AR i 1.4× więcej niż Qwen3-8B-Eagle3 przy tym samym throughput per-user.

Receptura treningowa — etapy

Treningowy pipeline Nemotron-Labs-Diffusion składa się z czterech etapów. Punktem startowym są wagi modeli Ministral 3B/8B/14B, a finalny model przechodzi alignment do zadań wizualnych (VLM):

Etap	Tokeny	Typ treningu	Cel
1	1T	AR-only pretraining	Stabilna baza językowa od Ministral
2	300B	AR + Diffusion joint	Wprowadzenie diffusion head, Global Loss Averaging
3	—	SFT (Supervised Fine-Tuning)	Alignment do instrukcji i preferencji
4	—	VLM alignment	Multimodalność wizualna

Dlaczego to ważne?

Nemotron-Labs-Diffusion stanowi istotne potwierdzenie tezy, że dLLM mogą być nie tylko eksperymentem akademickim, lecz praktycznym narzędziem produkcyjnym. Przez lata diffusion w tekście ustępowała autoregresji zarówno pod względem jakości generowania, jak i efektywności sprzętowej. NVIDIA pokazuje, że przy odpowiedniej recepturze treningowej i hybrydowej architekturze inferencji te przewagi mogą być odwrócone — przynajmniej w scenariuszach single-user i niskiej równoległości.

Kluczowy wątek dotyczy przyszłości samplingu. Raport wyraźnie stwierdza: jeśli uda się opracować lepszy Trained Sampler dla trybu diffusion, teoretyczna przewaga dLLM może przekroczyć AR o ponad 76.5% — to nie projekcja marketingowa, lecz analiza górnego ograniczenia wynikająca z liczby równoległych forward passów na token. Dla twórców frameworków inferencji (vLLM, TRT-LLM) oznacza to nowy front optymalizacji.

Otwarte pytanie dotyczy skalowalności do modeli 70B+, gdzie koszty diffusion forward passów rosną szybciej niż w AR. Na razie NVIDIA pozostaje przy rozmiarach <15B, co sugeruje, że problem skalowalności nie jest rozwiązany. Mimo to — jako open-source punkt wyjścia dla badań — to najsilniejszy publicznie dostępny baseline dLLM w 2025 roku.

Co dalej?

Receptura treningowa jest opublikowana — można ją aplikować do innych backbonów; spodziewane fine-tuny społecznościowe na Hugging Face
Kluczowy bottleneck to jakość Trained Sampler — NVIDIA sugeruje, że lepszy sampler to główny wektor przyszłych ulepszeń (potencjał 76.5% przewagi nad AR)
NLD (NVIDIA Language Deployment) ma otrzymać integrację trybów diffusion w kolejnych wersjach — roadmap nie ma daty, ale obecne wyniki są dowodem koncepcji