DreamLite: model dyfuzji 0,39B ByteDance generuje i edytuje obrazy na telefonie

ByteDance ujawnił DreamLite — lekki model dyfuzji o zaledwie 0,39 miliarda parametrów, który jako pierwszy znany model on-device łączy generowanie obrazów z tekstu i edycję obrazów sterowaną tekstem w jednej sieci. Na iPhone'ie 17 Pro model generuje lub edytuje obraz 1024×1024 w około 3 sekundy, pracując całkowicie lokalnie, bez przesyłania danych do chmury. Kod wnioskowania i paper są dostępne jako open-source na GitHub oraz arXiv.

Najważniejsze w skrócie

Rozmiar modelu: 0,39B parametrów (przycięty U-Net SDXL jako sieć główna)
Latencja na iPhone 17 Pro: ~3 sekundy dla obrazu 1024×1024, w pełni offline
Benchmarki: GenEval 0,72 / DPG 85,8 / ImgEdit 4,11 — powyżej wszystkich znanych modeli on-device o porównywalnych parametrach
DMD2 step distillation: kompresja próbkowania z kilkudziesięciu kroków do 4 kroków wnioskowania
Kod i paper open-source: GitHub ByteVisionLab/DreamLite, arXiv 2603.28713

Problem: dwa modele na jednym urządzeniu

Ekosystem modeli dyfuzji na urządzeniach mobilnych dotychczas wymagał osobnych sieci do dwóch kluczowych zadań. Generowanie obrazów od zera (text-to-image) i edycja istniejącego obrazu sterowana tekstem opierały się na odrębnych pipeline'ach. Dla urządzeń z ograniczoną pamięcią operacyjną jednoczesne załadowanie obu zestawów modeli — każdy z własnym zestawem wag, własnym buforem pamięci, własnym cyklem pobierania — było praktycznie nieakceptowalne z perspektywy inżynierii produktu.

Drugie ograniczenie to kompromis między jakością a latencją. Istniejące lekkie modele po stronie urządzenia, takie jak SnapGen++ (0,4B) czy SANA-0.6B (0,6B), osiągały na GenEval odpowiednio 0,66 i 0,64 — wyniki wyraźnie poniżej modeli serwerowych. Próba podniesienia jakości obrazu wydłużała czas wnioskowania do 10–15 sekund, co eliminowało praktyczną wartość interaktywną. Żaden z tych modeli nie obsługiwał przy tym edycji sterowanej tekstem.

Architektura: jeden U-Net, dwa tryby

DreamLite bazuje na przyciętym U-Net z SDXL. Kluczowy mechanizm unifikacji to In-Context Spatial Concatenation: wejście modelu zawsze stanowi para przestrzennych tensorów latentnych połączona wzdłuż osi szerokości (lewo-prawo). W trybie T2I prawy tensor to wypełniony czernią placeholder oznaczający brak warunku wizualnego. W trybie edycji prawy tensor to koder oryginalnego obrazu do modyfikacji.

Routing między trybami jest realizowany przez bezparametrowe tokeny zadań wstawiane na początku promptu tekstowego: [Generate] dla generowania od zera i [Edit] dla edycji. Dzięki temu jedna sieć rozróżnia zadanie bez dodatkowych adapterów, gałęzi architektury ani modułów routingowych — co jest kluczowe dla utrzymania niskiej liczby parametrów modelu.

Trening przebiega trzyetapowo. Etap 1 to pretraining T2I na danych tekstowo-obrazowych na dużą skalę. Etap 2 aktywuje warunkowanie in-context i uczy modelu edycji sterowanej instrukcją przy zachowaniu struktury oryginalnego obrazu. Etap 3 to wspólna optymalizacja obu zadań w jednolitym paradygmacie in-context. Autorzy raportują, że bezpośrednie wspólne trenowanie bez tych etapów wstępnych prowadziło do niestabilności dla modeli subgigabajtowych.

Dopasowanie jakości: RLHF i DMD2

Po pretreningu model przechodzi dwie rundy doszlifowania. Pierwsza to nadzorowane dostrajanie (SFT) na wyselekcjonowanych danych wysokiej jakości, a następnie alignment przez RLHF. Dla zadania T2I reward model to HPSv3 (Human Preference Score v3). Dla edycji reward model to EditReward. Optymalizacja preferencji odbywa się przez ReFL (Reward Feedback Learning) — wariant uczenia ze wzmocnieniem bezpośrednio w przestrzeni latentnej modelu dyfuzji.

Druga runda to DMD2 (Distribution Matching Distillation 2) — destylacja krokowa, która kompresuje próbkowanie z kilkudziesięciu kroków denoising do 4 kroków. Łącznie obie rundy pozwalają utrzymać jakość porównywalną z modelami 10–30 razy większymi przy latencji rzędu sekund na sprzęcie mobilnym klasy iPhone 17 Pro.

Wyniki: benchmarki i testy na urządzeniu

Na czterech kluczowych benchmarkach DreamLite (0,39B) osiąga: GenEval 0,72, DPG 85,8, ImgEdit 4,11, GEdit-EN-Q 6,88. Dla porównania: SnapGen++ (small, 0,4B) uzyskuje GenEval 0,66 i DPG 85,2 bez wyników dla edycji. SANA-0.6B (0,6B) osiąga GenEval 0,64, DPG 83,6. EditMGT (0,96B), specjalizowany wyłącznie w edycji, uzyskuje ImgEdit 2,89 i GEdit 6,33 — niżej niż DreamLite na obu metrykach edycji, przy 2,5-krotnie większej liczbie parametrów.

Zestawiając z modelami serwerowymi: FLUX.1-Dev/Kontext (12B) osiąga GenEval 0,67 i DPG 84,0 — DreamLite przy 30-krotnie mniejszej liczbie parametrów uzyskuje wyższy wynik GenEval (0,72 vs 0,67). OmniGen2 (4B) notuje ImgEdit 3,44 i GEdit 6,79 — DreamLite przy 10-krotnie mniejszej siatce wag osiąga lepsze ImgEdit (4,11) i porównywalny GEdit (6,88). Wyjątek stanowią LongCat-Image/Edit (6B) z ImgEdit 4,49 i BAGEL (7B) z GEdit 7,20, które utrzymują przewagę nad DreamLite.

Demo na iPhone 17 Pro obejmuje trzy typowe przepływy pracy: generowanie portretów z konwersją do stylu malarstwa olejnego, generowanie krajobrazów z sezonową zamianą tła (zima-lato) oraz generowanie scen produktowych z elastycznym zastępowaniem obiektów. Wszystkie operacje działają w pełni offline — dane użytkownika nie opuszczają urządzenia, co jest szczególnie istotne w kontekście regulacji dotyczących prywatności danych.

Dlaczego to ważne?

DreamLite pokazuje, że unifikacja T2I i edycji obrazów jest osiągalna poniżej progu 0,4B parametrów bez znaczącej utraty jakości na standardowych metrykach. To ma bezpośrednie konsekwencje dla inżynierii on-device: jeden model zamiast dwóch oznacza jeden cykl pobierania, jeden budżet pamięci, jeden punkt utrzymania. Dla zespołów produktowych budujących mobilne narzędzia kreatywne to uproszczenie architektury aplikacji bez kompromisu funkcjonalnego.

Metoda In-Context Spatial Concatenation jest koncepcyjnie prosta i nie wymaga dodatkowych adapterów ani modułów routingowych. Bezparametrowy routing przez tokeny zadań nie zwiększa liczby parametrów modelu przy zmianie trybu. Połączenie DMD2 z RLHF alignment przez ReFL wyznacza praktyczny schemat optymalizacji lekkich modeli dyfuzji — replikowalny przez inne zespoły badawcze pracujące nad deployment on-device. Prywatność danych jako właściwość architekturalna (zerowy transfer do chmury) staje się przy tym coraz ważniejszym wymogiem regulacyjnym w kontekście AI Act UE i analogicznych przepisów globalnych.

Co dalej?

Kod wnioskowania i paper dostępne już na GitHub (ByteVisionLab/DreamLite) oraz arXiv (2603.28713) — społeczność może testować model na różnych urządzeniach mobilnych i benchmarkować poza prezentowanym iPhone 17 Pro
Demo interaktywne dostępne na HuggingFace Spaces (carlofkl/DreamLite) — umożliwia weryfikację jakości bez fizycznego urządzenia Apple
ByteDance nie zaanonsował wdrożenia DreamLite w produktach komercyjnych (np. CapCut) — dostępność jako feature aplikacyjny pozostaje nieokreślona