MTP
Jak działa
Architektura MTP składa się ze wspólnego transformer-backbone i n niezależnych output heads. Każda head przewiduje token w pozycji t+1, t+2, ..., t+n od bieżącego kontekstu. Loss to suma cross-entropy losses ze wszystkich n głów. Heads typowo dzielą warstwę embedding wejścia, ale mają osobne projekcje wyjściowe. W trybie inferencji można użyć tylko pierwszej głowy (zachowując kompatybilność z next-token sampling) lub wszystkich n głów jako natywnego drafter w speculative decoding — head 1 generuje token, head 2..n proponują kontynuację, a model w jednym kroku weryfikuje wszystkie naraz. Współdzielony backbone i KV-cache eliminują typowe pułapki implementacji draft+target.
Rozwiązany problem
Standardowy next-token prediction loss uczy model krótkowzrocznych, lokalnych zależności. Powoduje to słabszą sample efficiency oraz konieczność stosowania osobnego drafter-modelu przy speculative decoding (z koniecznością koordynacji dwóch zestawów wag, KV-cache i tokenizerów). MTP rozwiązuje oba problemy jednocześnie: lepsze sygnały treningowe + natywny drafter wewnątrz modelu.
Implementacja
Ewolucja
Gloeckle i in. formalizują training objective i wykazują, że modele 13B trenowane z 4-token prediction rozwiązują 12% więcej HumanEval i 17% więcej MBPP niż next-token-only. Inferencja do 3x szybsza nawet przy dużych batchach.
DeepSeek-V3 (671B MoE, 37B aktywnych) adoptuje MTP jako auxiliary training objective dla wzmocnienia jakości. Model open-weight, koszt treningu 2.788M H800 GPU-godzin.
Google publikuje 6 maja 2026 eksperymentalne MTP drafter models dla rodziny Gemma 4 z licencją Apache 2.0 — 74M parametrów drafter dla wielomiliardowych target. Wspierane przez MLX, vLLM, SGLang, Ollama. 2.8x i 3.1x przyspieszenie na Pixel (E2B/E4B), 2.5x na Apple M4 (31B), 2x na RTX PRO 6000 (26B). Bez utraty jakości.
Szczegóły techniczne
Hiperparametry (konfigurowalne osie)
Liczba tokenów w przyszłości, które model uczy się przewidywać równolegle. Zwiększanie n powyżej pewnego punktu daje malejące zyski jakościowe i podnosi koszt treningu.
Waga MTP loss względem next-token loss. Zbyt wysoka degraduje quality główną głowę, zbyt niska redukuje benefit.
Wymagania sprzętowe
Gemma 4 MTP drafters działają na consumer GPU (RTX PRO 6000) z 2x speedup, na mobilnych GPU Pixel z 2.8x–3.1x.
Apple Silicon (M4) z unified memory uzyskuje 2.5x speedup na Gemma 4 31B przez MLX.