MiniMax M3: sparse attention 15,6× szybszy dekoding

MiniMax — chiński producent modeli AI znany z serii M2 — opublikował 27 maja 2026 r. szczegółowy raport techniczny serii M2 i zapowiedział kolejną generację: model M3 z nowym mechanizmem MiniMax Sparse Attention (MSA). Według wstępnych pomiarów MSA pozwala osiągnąć 15,6-krotne przyspieszenie fazy dekodowania przy kontekście jednego miliona tokenów w porównaniu do pełnej uwagi stosowanej w M2.

Najważniejsze w skrócie

MiniMax M3 wprowadzi „MiniMax Sparse Attention" (MSA) — mechanizm blokowej selekcji na niezkompresowanych KV-parach
Przyspieszenie dekodowania przy 1 mln tokenów: 15,6× względem M2; przyspieszenie prefillingu: 9,7×
M2 bazuje na 229,9 mld parametrów łącznie — aktywuje 9,8 mld na token przez 256 ekspertów (MoE)
M2.7 obsłużył 30–50% własnego pipeline'u ML; na MLE Bench Lite osiągnął 66,6% rate medali
MiniMax zapowiada, że MSA rozwiązuje główny problem sub-kwadratowych metod: utratę precyzji wieloskokowego rozumowania

Uwięziony w kwadracie

Każdy duży model językowy napotyka ten sam problem: standard full attention wymaga, by każdy token w sekwencji obliczał swoją relację z każdym innym tokenem. Koszt rośnie kwadratowo wraz z długością wejścia — przy milionie tokenów jest to praktycznie zaporowe.

Alternatywy „sub-kwadratowe" — sliding window attention, linear attention — redukują koszt, ale historycznie degradowały zdolność do wieloskokowego rozumowania (multi-hop reasoning). Wyniki MiniMax z testów na M2 są precyzyjne i pokazane w Tabeli 1: różnica 18 punktów na benchmarku RULER 128K zdecydowała o wycofaniu wariantów SWA — M2 trafił na produkcję z pełną uwagą, ponosząc cały koszt obliczeniowy.

Wariant uwagi w M2	Wynik RULER 128K	Koszt obliczeniowy
Pełna uwaga (wybrana do produkcji)	90,0	Kwadratowy względem długości kontekstu
Sliding Window Attention (>32K)	72,0	Sub-kwadratowy
Różnica	−18 pkt	—

Tabela 1. M2 — koszt pełnej uwagi vs. utrata jakości w SWA. Benchmark RULER 128K (complex word extraction).

MSA: blokowa selekcja na prawdziwych KV

Nadchodząca architektura M3 łamie ten kompromis. MiniMax Sparse Attention (MSA) nie kompresuje kluczy i wartości do niskowymiarowej przestrzeni latentnej — jak robi to DeepSeek MLA — lecz działa na standardowym backbone GQA, dynamicznie selekcjonując sekwencje na poziomie bloków z niezkompresowanych KV-par.

Ta różnica jest istotna z dwóch powodów. Po pierwsze, eliminuje utratę precyzji wynikającą z kompresji. Po drugie, umożliwia natywne prefix caching — cechę, której brak blokował wcześniejsze metody sub-kwadratowe i utrudniał integrację z Multi-Token Prediction (MTP) używanym do speculative decoding.

Cecha	M2 (full attention)	M3 (MiniMax Sparse Attention)
Backbone uwagi	Pełna uwaga (GQA)	GQA + blokowa selekcja KV
KV cache	Niezkompresowany	Niezkompresowany (różnica względem DeepSeek MLA)
Parametry łącznie	229,9 mld	Niepodane
Parametry aktywne / token	9,8 mld (256 ekspertów MoE)	Niepodane
Prefilling przy 1 mln tokenów	Punkt odniesienia	9,7× szybciej
Dekodowanie przy 1 mln tokenów	Punkt odniesienia	15,6× szybciej
Prefix caching	Tak	Tak (natywne)
Wieloskokowe rozumowanie	Zachowane	Zachowane (deklaracja MiniMax)

Tabela 2. MiniMax M2 (full attention) vs. zapowiadany M3 (MSA). Pomiary przy kontekście 1 mln tokenów.

Tabela 2 zestawia obie generacje. Najważniejszy jest dolny wiersz — 15,6× przyspieszenie dekodowania przy milionie tokenów. Faza dekodowania to wąskie gardło każdej generacji tekstu: model przelicza kontekst całego dotychczasowego wyjścia przy każdym kolejnym tokenie. Przyspieszenie tego rzędu oznacza, że długie wyniki agentowe — odpowiedzi na zadania wielokrokowe, wielostronicowe podsumowania — stają się ekonomicznie opłacalne do generowania w czasie rzeczywistym.

Forge i samoulepszający się M2.7

Raport M2 ujawnia też architekturę systemu treningu agentowego. MiniMax zbudował „Forge" — środowisko RL podzielone na trzy niezależne moduły: Agent Side, warstwę abstrakcji middleware (Gateway Server i Data Pool) oraz silniki Training/Inference.

Dwa kluczowe rozwiązania inżynierskie w Forge: windowed FIFO scheduling (harmonogramowanie oknem przesuwanym, które zapobiega przestojom klastra i niestabilności gradientu) oraz prefix tree merging (łączenie prefixów wspólnych dla wielu completions w jednym przejściu forward — do 40× przyspieszenie treningu przy zerowym błędzie aproksymacji).

Wynikiem treningu w Forge jest model MiniMax M2.7, który według MiniMax samodzielnie obsługuje 30–50% własnego pipeline'u ML. Na MLE Bench Lite — benchmarku testującym autonomiczne zdolności badawcze z zakresu machine learning — M2.7 osiągnął 66,6% rate medali, dorównując zamkniętemu Gemini 3.1 Pro od Google. Na rynku open-source MiniMax rywalizuje m.in. z Xiaomi o dominację w segmencie modeli agentowych.

Dlaczego to ważne?

MiniMax M3 jest ważny z powodów, które wykraczają poza pojedynczy benchmark. Jeśli MSA rzeczywiście dostarcza 15,6× przyspieszenia dekodowania bez degradacji wieloskokowego rozumowania, przełamuje kompromis, który przez lata ograniczał zastosowania agentowe przy długich kontekstach. Koszt wnioskowania na milion tokenów spada drastycznie — co czyni infrastrukturę agentową dostępną dla firm, które dziś nie mogą sobie pozwolić na utrzymanie pełnej uwagi przy długich sekwencjach. Raport M2 jest też rzadkim przykładem transparentności technicznej od chińskiego dostawcy: szczegółowo dokumentuje nie tylko sukcesy, ale i ślepe zaułki — odrzucone architektury sub-kwadratowe, problemy z load balancingiem ekspertów. Dla inżynierów AI budujących własne modele to bezpłatna mapa drogowa do unikania kosztownych błędów. Rynkowo, sukces M3 wzmocni pozycję MiniMax w segmencie open-source modeli agentowych.

Co dalej?

MiniMax zapowiedział blog techniczny szczegółowo opisujący MSA — jego publikacja będzie pierwszym testem wiarygodności zapowiedzianych wyników przyspieszenia
Raport techniczny M2 jest już dostępny na Hugging Face — deweloperzy mogą weryfikować opisane wyniki Forge i MTP niezależnie
Pełna premiera M3 nie ma ogłoszonej daty — firma zapowiedziała „Something BIG is coming"; konkretny termin pokaże, czy harmonogram odpowiada ambicjom architektury