Robocikowo>ROBOCIKOWO
Trening

MTP

2024AktywnyOpublikowany
Multi-Token Prediction (MTP) to technika treningu modeli językowych, w której model uczy się przewidywać kilka kolejnych tokenów naraz przez wiele równoległych output heads. Daje lepszą jakość modelu i jednocześnie pozwala na speculative decoding bez osobnego drafter-modelu.
Kluczowa innowacja
Trening modelu językowego do przewidywania n kolejnych tokenów jednocześnie (zamiast jednego) poprzez n niezależnych output heads na wspólnym backbone — daje lepszą jakość modelu, większą sample efficiency oraz natywne wsparcie dla speculative decoding bez osobnego drafter-modelu.
Kategoria
Trening
Poziom abstrakcji
Pattern
Poziom operacji
TreningEwaluacja (runtime)
Zastosowania
Pretraining LLM z lepszą sample efficiency i jakością generacjiModele kodu (HumanEval, MBPP) — szczególnie duży zyskModele open-weight optymalizowane pod inferencję lokalną (Gemma 4, DeepSeek-V3)Drafter w speculative decoding bez kosztu osobnego modelu

Jak działa

Architektura MTP składa się ze wspólnego transformer-backbone i n niezależnych output heads. Każda head przewiduje token w pozycji t+1, t+2, ..., t+n od bieżącego kontekstu. Loss to suma cross-entropy losses ze wszystkich n głów. Heads typowo dzielą warstwę embedding wejścia, ale mają osobne projekcje wyjściowe. W trybie inferencji można użyć tylko pierwszej głowy (zachowując kompatybilność z next-token sampling) lub wszystkich n głów jako natywnego drafter w speculative decoding — head 1 generuje token, head 2..n proponują kontynuację, a model w jednym kroku weryfikuje wszystkie naraz. Współdzielony backbone i KV-cache eliminują typowe pułapki implementacji draft+target.

Rozwiązany problem

Standardowy next-token prediction loss uczy model krótkowzrocznych, lokalnych zależności. Powoduje to słabszą sample efficiency oraz konieczność stosowania osobnego drafter-modelu przy speculative decoding (z koniecznością koordynacji dwóch zestawów wag, KV-cache i tokenizerów). MTP rozwiązuje oba problemy jednocześnie: lepsze sygnały treningowe + natywny drafter wewnątrz modelu.

Ewolucja

Oryginalny paper · 2024 · arXiv preprint; Meta AI / FAIR · Fabian Gloeckle
Better & Faster Large Language Models via Multi-token Prediction
Fabian Gloeckle, Badr Youbi Idrissi, Baptiste Rozière, David Lopez-Paz, Gabriel Synnaeve
2024
Wprowadzenie MTP (Meta AI)
Punkt przełomowy

Gloeckle i in. formalizują training objective i wykazują, że modele 13B trenowane z 4-token prediction rozwiązują 12% więcej HumanEval i 17% więcej MBPP niż next-token-only. Inferencja do 3x szybsza nawet przy dużych batchach.

2024
DeepSeek-V3 wykorzystuje MTP w skali 671B

DeepSeek-V3 (671B MoE, 37B aktywnych) adoptuje MTP jako auxiliary training objective dla wzmocnienia jakości. Model open-weight, koszt treningu 2.788M H800 GPU-godzin.

2026
Gemma 4 MTP drafter models (Google)

Google publikuje 6 maja 2026 eksperymentalne MTP drafter models dla rodziny Gemma 4 z licencją Apache 2.0 — 74M parametrów drafter dla wielomiliardowych target. Wspierane przez MLX, vLLM, SGLang, Ollama. 2.8x i 3.1x przyspieszenie na Pixel (E2B/E4B), 2.5x na Apple M4 (31B), 2x na RTX PRO 6000 (26B). Bez utraty jakości.

Szczegóły techniczne

Hiperparametry (konfigurowalne osie)

Number of prediction heads (n)Krytyczna

Liczba tokenów w przyszłości, które model uczy się przewidywać równolegle. Zwiększanie n powyżej pewnego punktu daje malejące zyski jakościowe i podnosi koszt treningu.

4Wartość użyta przez Meta w pracy źródłowej.
1 (DeepSeek-V3)DeepSeek-V3 używa pojedynczej dodatkowej głowy MTP jako auxiliary objective.
Auxiliary loss weightWysoka

Waga MTP loss względem next-token loss. Zbyt wysoka degraduje quality główną głowę, zbyt niska redukuje benefit.

Wymagania sprzętowe

Podstawowe

Gemma 4 MTP drafters działają na consumer GPU (RTX PRO 6000) z 2x speedup, na mobilnych GPU Pixel z 2.8x–3.1x.

Dobry fit

Apple Silicon (M4) z unified memory uzyskuje 2.5x speedup na Gemma 4 31B przez MLX.