NVIDIA opublikowała rodzinę modeli Nemotron-Labs-Diffusion w rozmiarach 3B, 8B i 14B — pierwszą komercyjną implementację architektury łączącej klasyczną autoregresję z block-wise diffusion decoding. Modele dostępne są jako open-source na Hugging Face, a techniczna dokumentacja ukazała się na blogu NVIDIA Research.
Najważniejsze w skrócie
- NVIDIA wypuściła trzy modele językowe (3B, 8B, 14B parametrów) jako open-source — każdy może je pobrać, uruchomić lokalnie i dotrenować pod swoje potrzeby.
- Modele potrafią pisać tekst na trzy różne sposoby i przełączać się między nimi w locie: klasycznie litera-po-literze, generując całe bloki tokenów równolegle, albo „spekulacyjnie" — szybko zgadując i weryfikując.
- Na pojedynczym użytkowniku (np. czat z asystentem, lokalny coding) modele generują tekst nawet 3-4 razy szybciej niż klasyczne LLM-y porównywalnej wielkości — przy tej samej jakości odpowiedzi.
- Na najnowszej platformie NVIDIA GB200 model 8B pokonuje konkurencję (Qwen3-Eagle3) o 40% w przepustowości — przy tej samej liczbie obsługiwanych użytkowników.
- Jakość odpowiedzi (matematyka, kodowanie, rozumowanie) trzyma poziom Qwen3-8B i Mistral 8B — czyli czołówki modeli tej klasy. Nie ma kompromisu między szybkością a inteligencją.
- Ograniczenie: zysk szybkości znika przy serwerach obsługujących setki użytkowników naraz. NLD to broń dla scenariuszy single-user, nie dla masowego API.
Trzeci tryb to nowość — Self-Speculation
Żeby zrozumieć co to jest Self-Speculation, trzeba najpierw wiedzieć jak działają dwa pozostałe tryby.
- Tryb AR (autoregresja) to klasyka — model generuje tekst token po tokenie, od lewej do prawej. Jak pisanie zdania litera po literze: szybki start, ale każdy token wymaga pełnego przebiegu przez sieć. Wolno, ale przewidywalnie.
- Tryb Diffusion działa inaczej — model dostaje cały blok zamaskowanych tokenów (np. 32 puste pola) i odgaduje je równolegle, w kilku rundach „odszumiania". Jak rozwiązywanie krzyżówki: widzisz całą planszę naraz i wpisujesz słowa w wielu miejscach jednocześnie. Szybciej niż AR, ale jakość bywa gorsza bo model musi zgadnąć wszystkie pozycje na raz.
Self-Speculation to trick łączący jedno z drugim. Pomysł: ten sam model uruchamiamy w dwóch rolach jednocześnie.
- Wersja „szkicowa" (lekka konfiguracja warstw) — biegnie szybko i typuje 6-8 kandydatów na kolejne tokeny. Można to porównać do asystenta, który strzela odpowiedź na szybko.
- Wersja „weryfikująca" (pełna konfiguracja) — sprawdza wszystkie kandydatury jednym przebiegiem. Akceptuje te, które sama by wygenerowała, odrzuca resztę.
Kluczowy zysk: jeden przebieg przez duży model = 5,9 zaakceptowanych tokenów (TPF — tokens per forward pass), zamiast 1 jak w AR. To stąd biorą się przyspieszenia 3-4×.
To adaptacja Speculative Decoding z jedną różnicą: zamiast trenować osobny mały model jako „szkicownika" (jak robi to np. Eagle3), NVIDIA używa tego samego modelu w zubożonej konfiguracji. Stąd nazwa Self-Speculation — model spekuluje sam ze sobą. Mniej infrastruktury, mniej parametrów do utrzymania.
Ważne zastrzeżenie dotyczące skali wdrożenia. Cały zysk z Self-Speculation i Diffusion znika gdy serwer obsługuje wielu użytkowników naraz. Wyjaśnienie:
- Mała liczba sesji (1-64 użytkowników naraz): GPU ma wolne moce obliczeniowe — Self-Speculation wypełnia je weryfikując kandydatów. Każdy dodatkowy „strzał" kosztuje grosze, bo i tak procesor by się nudził. Tu wygrywa NLD.
- Duża liczba sesji (64+ użytkowników naraz): GPU już jest w pełni obciążony przetwarzaniem AR dla wszystkich sesji równolegle. Dorzucanie kandydatów do weryfikacji nic nie daje, bo nie ma wolnych zasobów. Tu wygrywa klasyczny AR — i NVIDIA otwarcie to przyznaje, zalecając przełączanie trybów w zależności od obciążenia serwera.
Innymi słowy: NLD błyszczy w scenariuszach single-user / low-concurrency (ChatGPT-podobny chat z jedną osobą, coding assistant, lokalne inferencje na stacji roboczej). Dla masowej platformy API obsługującej tysiące równoczesnych zapytań przewaga zanika.
Jak trenowano modele — Dual Loss i Global Loss Averaging
Receptura treningowa startuje z modeli Ministral 3B/8B/14B. Etap pierwszy: 1 bilion tokenów pre-trainingu w trybie AR-only. Etap drugi: 300 miliardów tokenów wspólnego treningu AR + Diffusion z techniką Global Loss Averaging — oba sygnały straty są uśredniane, co eliminuje problem niestabilności gradientów przy równoległym treningu dwóch głowic na tym samym backbonie. Całość kończy się SFT i wyrównaniem VLM.
Kluczowe techniki implementacyjne: Full Loss Averaging dla stabilizacji treningu, DP-rank Variable Encoding dla elastycznej długości sekwencji, Strict Causal Masking (blokowanie przywracania attention w kierunku wstecznym), oraz LoRA-grown draft — super-mały model poboczny rozwijany przez LoRA z wag modelu głównego, bez zewnętrznych parametrów.
Benchmarki: gdzie model wyróżnia się, a gdzie ma ograniczenia
Najważniejszy wynik z benchmarków to SPEED-Bench — mierzący efektywność inferencji w trybie skalarnym (single-user, niskie partie). Nemotron-Labs-Diffusion-8B osiąga średnią długość akceptacji 8.7 tokenów na krok, co przekłada się na 5.9 TPF na GB200. Dla porównania: Qwen3-5B-MTP osiąga 4.7 TPF, Qwen3-8B-Eagle3 — 2.81 TPF. Dane dotyczą inferencji dla pojedynczego użytkownika — przy dużej równoległości obraz jest inny.
W standardowych benchmarach jakości (QA, coding, math, reasoning), zestawionych w tabeli 1 technicznego raportu, modele Nemotron-Labs-Diffusion-8B uzyskują wyniki zbliżone lub lepsze od wcześniejszych dLLM (LLaDA, Dream, SDAR), z poprawą 9–22.4% na dużych zestawach testowych. NVIDIA zastrzega, że główna przewaga koncentruje się na metrykach efektywności, nie na SOTA accuracy — modele celują w praktyczne wdrożenia, nie w zwycięstwo w rankingach zamkniętych.
Przyspieszenie NLD 8B vs. punkt odniesienia AR (single user)
| Platforma | Precyzja | Przyspieszenie vs. AR |
|---|---|---|
| DGX Spark | FP8 | 3.14× |
| DGX Spark | INT4 | 2.7× (112 vs 41.8 tok/s AR) |
| RTX Pro 6000 | FP8 | 3.4× |
| RTX Pro 6000 | INT4 | 2.3× |
| GB200 | FP8 | 3.3× (850 tok/s) |
Pozycja względem konkurencji i wcześniejszych dLLM
W ekosystemie dLLM (diffusion language models) funkcjonują wcześniejsze projekty: LLaDA (Meta AI Research), Dream i SDAR — wszystkie eksperymentalne, bez pełnych pipeline'ów produkcyjnych. Nemotron-Labs-Diffusion jest pierwszym modelem tej klasy ze: zintegrowanym trybem Self-Speculation, opublikowanymi recepturami treningowymi oraz obsługą wnioskowania klientów przez NLD (NVIDIA Language Deployment). Po stronie autoregresywnej, głównym punktem porównań jest Qwen3-8B z nagłówkiem Eagle3 — tutaj Nemotron osiąga 1.4× wyższy throughput na GB200 przy tej samej liczbie równoległych sesji.
Ważne ograniczenie: przewaga throughput jest widoczna przy małej równoległości (<64 sesji). Przy dużym ruchu (>64 sesji) architektura AR ma porównywalny lub lepszy throughput systemowy, co NVIDIA przyznaje wprost w raporcie technicznym — dostępnym pod adresem cloudfront.net.
Benchmarki jakościowe — porównanie z konkurencją
Poniższa tabela zestawia średnie wyniki accuracy modelu Nemotron-Labs-Diffusion-8B z konkurencyjnymi dLLM oraz autoregresywnym baseline Qwen3-8B (źródło: raport techniczny NVIDIA, Table 3).
| Model | QA + Instruct | Coding | Math | Średnia |
|---|---|---|---|---|
| Qwen3-8B (AR) | 68.21 | 49.45 | 88.28 | 64.85 |
| Qwen3-4B (AR) | 67.37 | 36.20 | 85.20 | 62.75 |
| Ministral-8B (AR) | 63.07 | 38.07 | 70.91 | 57.36 |
| LLaDA-8B (dLLM) | 46.32 | 7.32 | 11.00 | 24.71 |
| Dream-7B (dLLM) | 54.50 | 24.07 | 46.10 | 40.45 |
| SDAR-8B (dLLM) | 58.06 | 24.05 | 53.94 | 43.69 |
| NLD-8B (Diff) | 64.41 | 36.49 | 74.50 | 57.29 |
| NLD-8B (Quad SS) | 67.42 | 38.07 | 78.95 | 60.83 |
Najważniejszy wniosek: Nemotron-Labs-Diffusion-8B w trybie Quadratic Self-Speculation osiąga 60.83 średniej accuracy — najwyższy wynik wśród modeli diffusion (LLaDA 24.71, Dream 40.45, SDAR 43.69) i wynik porównywalny z autoregresywnym Qwen3-4B (62.75). Do Qwen3-8B (64.85) traci ok. 4 punkty, co przy 3× wyższym throughput jest akceptowalnym kompromisem dla wdrożeń produkcyjnych.
Diagram Pareto: throughput GPU vs per-user
Najsilniejszy argument architektoniczny pochodzi z analizy Pareto. Idealna pozycja na takim wykresie to prawy górny róg — wysoki throughput jednocześnie dla pojedynczego użytkownika i dla całego GPU. Nemotron-Labs-Diffusion-8B w trybie Self-Speculation dominuje tam, gdzie autoregresja (czarna krzywa) i Qwen3-8B-Eagle3 (cyjan) muszą wybierać między jedną a drugą metryką.
Krzywa NLD (zielona) leży powyżej i na prawo od konkurencji w całym zakresie. Przy c=128 (concurrency 128 sesji) Self-Speculation osiąga ok. 10 000 tok/sec łącznie na GPU GB200 — 3.3× więcej niż klasyczny AR i 1.4× więcej niż Qwen3-8B-Eagle3 przy tym samym throughput per-user.
Receptura treningowa — etapy
Treningowy pipeline Nemotron-Labs-Diffusion składa się z czterech etapów. Punktem startowym są wagi modeli Ministral 3B/8B/14B, a finalny model przechodzi alignment do zadań wizualnych (VLM):
| Etap | Tokeny | Typ treningu | Cel |
|---|---|---|---|
| 1 | 1T | AR-only pretraining | Stabilna baza językowa od Ministral |
| 2 | 300B | AR + Diffusion joint | Wprowadzenie diffusion head, Global Loss Averaging |
| 3 | — | SFT (Supervised Fine-Tuning) | Alignment do instrukcji i preferencji |
| 4 | — | VLM alignment | Multimodalność wizualna |
Dlaczego to ważne?
Nemotron-Labs-Diffusion stanowi istotne potwierdzenie tezy, że dLLM mogą być nie tylko eksperymentem akademickim, lecz praktycznym narzędziem produkcyjnym. Przez lata diffusion w tekście ustępowała autoregresji zarówno pod względem jakości generowania, jak i efektywności sprzętowej. NVIDIA pokazuje, że przy odpowiedniej recepturze treningowej i hybrydowej architekturze inferencji te przewagi mogą być odwrócone — przynajmniej w scenariuszach single-user i niskiej równoległości.
Kluczowy wątek dotyczy przyszłości samplingu. Raport wyraźnie stwierdza: jeśli uda się opracować lepszy Trained Sampler dla trybu diffusion, teoretyczna przewaga dLLM może przekroczyć AR o ponad 76.5% — to nie projekcja marketingowa, lecz analiza górnego ograniczenia wynikająca z liczby równoległych forward passów na token. Dla twórców frameworków inferencji (vLLM, TRT-LLM) oznacza to nowy front optymalizacji.
Otwarte pytanie dotyczy skalowalności do modeli 70B+, gdzie koszty diffusion forward passów rosną szybciej niż w AR. Na razie NVIDIA pozostaje przy rozmiarach <15B, co sugeruje, że problem skalowalności nie jest rozwiązany. Mimo to — jako open-source punkt wyjścia dla badań — to najsilniejszy publicznie dostępny baseline dLLM w 2025 roku.
Co dalej?
- Receptura treningowa jest opublikowana — można ją aplikować do innych backbonów; spodziewane fine-tuny społecznościowe na Hugging Face
- Kluczowy bottleneck to jakość Trained Sampler — NVIDIA sugeruje, że lepszy sampler to główny wektor przyszłych ulepszeń (potencjał 76.5% przewagi nad AR)
- NLD (NVIDIA Language Deployment) ma otrzymać integrację trybów diffusion w kolejnych wersjach — roadmap nie ma daty, ale obecne wyniki są dowodem koncepcji
Źródła
NVIDIA Research — Nemotron-Labs-Diffusion Technical Report
Hugging Face — nvidia/Nemotron-Labs-Diffusion-8B
JiQiZhiXin — Omówienie techniki Self-Speculation i Dual Loss


