Trening

MTP

2024AktywnyOpublikowany

Multi-Token Prediction (MTP) to technika treningu modeli językowych, w której model uczy się przewidywać kilka kolejnych tokenów naraz przez wiele równoległych output heads. Daje lepszą jakość modelu i jednocześnie pozwala na speculative decoding bez osobnego drafter-modelu.

Kluczowa innowacja

Trening modelu językowego do przewidywania n kolejnych tokenów jednocześnie (zamiast jednego) poprzez n niezależnych output heads na wspólnym backbone — daje lepszą jakość modelu, większą sample efficiency oraz natywne wsparcie dla speculative decoding bez osobnego drafter-modelu.

Kategoria

Trening

Poziom abstrakcji

Pattern

Poziom operacji

TreningEwaluacja (runtime)

Zastosowania

Pretraining LLM z lepszą sample efficiency i jakością generacjiModele kodu (HumanEval, MBPP) — szczególnie duży zyskModele open-weight optymalizowane pod inferencję lokalną (Gemma 4, DeepSeek-V3)Drafter w speculative decoding bez kosztu osobnego modelu

Jak działa

Architektura MTP składa się ze wspólnego transformer-backbone i n niezależnych output heads. Każda head przewiduje token w pozycji t+1, t+2, ..., t+n od bieżącego kontekstu. Loss to suma cross-entropy losses ze wszystkich n głów. Heads typowo dzielą warstwę embedding wejścia, ale mają osobne projekcje wyjściowe. W trybie inferencji można użyć tylko pierwszej głowy (zachowując kompatybilność z next-token sampling) lub wszystkich n głów jako natywnego drafter w speculative decoding — head 1 generuje token, head 2..n proponują kontynuację, a model w jednym kroku weryfikuje wszystkie naraz. Współdzielony backbone i KV-cache eliminują typowe pułapki implementacji draft+target.

Rozwiązany problem

Standardowy next-token prediction loss uczy model krótkowzrocznych, lokalnych zależności. Powoduje to słabszą sample efficiency oraz konieczność stosowania osobnego drafter-modelu przy speculative decoding (z koniecznością koordynacji dwóch zestawów wag, KV-cache i tokenizerów). MTP rozwiązuje oba problemy jednocześnie: lepsze sygnały treningowe + natywny drafter wewnątrz modelu.

Implementacja

Implementacje referencyjne

Meta MTP (arXiv 2404.19737)

Python · Meta AI / FAIR

Oficjalna

DeepSeek-V3 (open weights)

Python · DeepSeek AI

Oficjalna

Gemma 4 MTP drafters (MLX, vLLM, SGLang, Ollama)

Python · Google

Oficjalna

Ewolucja

Oryginalny paper · 2024 · arXiv preprint; Meta AI / FAIR · Fabian Gloeckle

Better & Faster Large Language Models via Multi-token Prediction

Fabian Gloeckle, Badr Youbi Idrissi, Baptiste Rozière, David Lopez-Paz, Gabriel Synnaeve

2024

Wprowadzenie MTP (Meta AI)

Punkt przełomowy

Gloeckle i in. formalizują training objective i wykazują, że modele 13B trenowane z 4-token prediction rozwiązują 12% więcej HumanEval i 17% więcej MBPP niż next-token-only. Inferencja do 3x szybsza nawet przy dużych batchach.

Better & Faster Large Language Models via Multi-token Prediction (artykuł)

2024

DeepSeek-V3 wykorzystuje MTP w skali 671B

DeepSeek-V3 (671B MoE, 37B aktywnych) adoptuje MTP jako auxiliary training objective dla wzmocnienia jakości. Model open-weight, koszt treningu 2.788M H800 GPU-godzin.

DeepSeek-V3 Technical Report (artykuł)

2026

Gemma 4 MTP drafter models (Google)

Google publikuje 6 maja 2026 eksperymentalne MTP drafter models dla rodziny Gemma 4 z licencją Apache 2.0 — 74M parametrów drafter dla wielomiliardowych target. Wspierane przez MLX, vLLM, SGLang, Ollama. 2.8x i 3.1x przyspieszenie na Pixel (E2B/E4B), 2.5x na Apple M4 (31B), 2x na RTX PRO 6000 (26B). Bez utraty jakości.

Szczegóły techniczne

Hiperparametry (konfigurowalne osie)

Number of prediction heads (n)Krytyczna

Liczba tokenów w przyszłości, które model uczy się przewidywać równolegle. Zwiększanie n powyżej pewnego punktu daje malejące zyski jakościowe i podnosi koszt treningu.

4Wartość użyta przez Meta w pracy źródłowej.

1 (DeepSeek-V3)DeepSeek-V3 używa pojedynczej dodatkowej głowy MTP jako auxiliary objective.

Auxiliary loss weightWysoka

Waga MTP loss względem next-token loss. Zbyt wysoka degraduje quality główną głowę, zbyt niska redukuje benefit.

Wymagania sprzętowe

Podstawowe

Gemma 4 MTP drafters działają na consumer GPU (RTX PRO 6000) z 2x speedup, na mobilnych GPU Pixel z 2.8x–3.1x.

Dobry fit

Apple Silicon (M4) z unified memory uzyskuje 2.5x speedup na Gemma 4 31B przez MLX.

Źródła

Better & Faster Large Language Models via Multi-token Prediction

Paper

arXiv

Praca źródłowa Meta AI/FAIR — Gloeckle, Idrissi, Rozière, Lopez-Paz, Synnaeve.

DeepSeek-V3 Technical Report

Paper

arXiv

DeepSeek-V3 używa MTP jako auxiliary training objective.

Ars Technica — Google's Gemma 4 AI models get 3x speed boost by predicting future tokens

article

Ars Technica

Pokrycie release'u Gemma 4 MTP (6 maja 2026).