MiniMax — chiński producent modeli AI znany z serii M2 — opublikował 27 maja 2026 r. szczegółowy raport techniczny serii M2 i zapowiedział kolejną generację: model M3 z nowym mechanizmem MiniMax Sparse Attention (MSA). Według wstępnych pomiarów MSA pozwala osiągnąć 15,6-krotne przyspieszenie fazy dekodowania przy kontekście jednego miliona tokenów w porównaniu do pełnej uwagi stosowanej w M2.
Najważniejsze w skrócie
- MiniMax M3 wprowadzi „MiniMax Sparse Attention" (MSA) — mechanizm blokowej selekcji na niezkompresowanych KV-parach
- Przyspieszenie dekodowania przy 1 mln tokenów: 15,6× względem M2; przyspieszenie prefillingu: 9,7×
- M2 bazuje na 229,9 mld parametrów łącznie — aktywuje 9,8 mld na token przez 256 ekspertów (MoE)
- M2.7 obsłużył 30–50% własnego pipeline'u ML; na MLE Bench Lite osiągnął 66,6% rate medali
- MiniMax zapowiada, że MSA rozwiązuje główny problem sub-kwadratowych metod: utratę precyzji wieloskokowego rozumowania
Uwięziony w kwadracie
Każdy duży model językowy napotyka ten sam problem: standard full attention wymaga, by każdy token w sekwencji obliczał swoją relację z każdym innym tokenem. Koszt rośnie kwadratowo wraz z długością wejścia — przy milionie tokenów jest to praktycznie zaporowe.
Alternatywy „sub-kwadratowe" — sliding window attention, linear attention — redukują koszt, ale historycznie degradowały zdolność do wieloskokowego rozumowania (multi-hop reasoning). Wyniki MiniMax z testów na M2 są precyzyjne i pokazane w Tabeli 1: różnica 18 punktów na benchmarku RULER 128K zdecydowała o wycofaniu wariantów SWA — M2 trafił na produkcję z pełną uwagą, ponosząc cały koszt obliczeniowy.
| Wariant uwagi w M2 | Wynik RULER 128K | Koszt obliczeniowy |
|---|---|---|
| Pełna uwaga (wybrana do produkcji) | 90,0 | Kwadratowy względem długości kontekstu |
| Sliding Window Attention (>32K) | 72,0 | Sub-kwadratowy |
| Różnica | −18 pkt | — |
MSA: blokowa selekcja na prawdziwych KV
Nadchodząca architektura M3 łamie ten kompromis. MiniMax Sparse Attention (MSA) nie kompresuje kluczy i wartości do niskowymiarowej przestrzeni latentnej — jak robi to DeepSeek MLA — lecz działa na standardowym backbone GQA, dynamicznie selekcjonując sekwencje na poziomie bloków z niezkompresowanych KV-par.
Ta różnica jest istotna z dwóch powodów. Po pierwsze, eliminuje utratę precyzji wynikającą z kompresji. Po drugie, umożliwia natywne prefix caching — cechę, której brak blokował wcześniejsze metody sub-kwadratowe i utrudniał integrację z Multi-Token Prediction (MTP) używanym do speculative decoding.
| Cecha | M2 (full attention) | M3 (MiniMax Sparse Attention) |
|---|---|---|
| Backbone uwagi | Pełna uwaga (GQA) | GQA + blokowa selekcja KV |
| KV cache | Niezkompresowany | Niezkompresowany (różnica względem DeepSeek MLA) |
| Parametry łącznie | 229,9 mld | Niepodane |
| Parametry aktywne / token | 9,8 mld (256 ekspertów MoE) | Niepodane |
| Prefilling przy 1 mln tokenów | Punkt odniesienia | 9,7× szybciej |
| Dekodowanie przy 1 mln tokenów | Punkt odniesienia | 15,6× szybciej |
| Prefix caching | Tak | Tak (natywne) |
| Wieloskokowe rozumowanie | Zachowane | Zachowane (deklaracja MiniMax) |
Tabela 2 zestawia obie generacje. Najważniejszy jest dolny wiersz — 15,6× przyspieszenie dekodowania przy milionie tokenów. Faza dekodowania to wąskie gardło każdej generacji tekstu: model przelicza kontekst całego dotychczasowego wyjścia przy każdym kolejnym tokenie. Przyspieszenie tego rzędu oznacza, że długie wyniki agentowe — odpowiedzi na zadania wielokrokowe, wielostronicowe podsumowania — stają się ekonomicznie opłacalne do generowania w czasie rzeczywistym.
Forge i samoulepszający się M2.7
Raport M2 ujawnia też architekturę systemu treningu agentowego. MiniMax zbudował „Forge" — środowisko RL podzielone na trzy niezależne moduły: Agent Side, warstwę abstrakcji middleware (Gateway Server i Data Pool) oraz silniki Training/Inference.
Dwa kluczowe rozwiązania inżynierskie w Forge: windowed FIFO scheduling (harmonogramowanie oknem przesuwanym, które zapobiega przestojom klastra i niestabilności gradientu) oraz prefix tree merging (łączenie prefixów wspólnych dla wielu completions w jednym przejściu forward — do 40× przyspieszenie treningu przy zerowym błędzie aproksymacji).
Wynikiem treningu w Forge jest model MiniMax M2.7, który według MiniMax samodzielnie obsługuje 30–50% własnego pipeline'u ML. Na MLE Bench Lite — benchmarku testującym autonomiczne zdolności badawcze z zakresu machine learning — M2.7 osiągnął 66,6% rate medali, dorównując zamkniętemu Gemini 3.1 Pro od Google. Na rynku open-source MiniMax rywalizuje m.in. z Xiaomi o dominację w segmencie modeli agentowych.
Dlaczego to ważne?
MiniMax M3 jest ważny z powodów, które wykraczają poza pojedynczy benchmark. Jeśli MSA rzeczywiście dostarcza 15,6× przyspieszenia dekodowania bez degradacji wieloskokowego rozumowania, przełamuje kompromis, który przez lata ograniczał zastosowania agentowe przy długich kontekstach. Koszt wnioskowania na milion tokenów spada drastycznie — co czyni infrastrukturę agentową dostępną dla firm, które dziś nie mogą sobie pozwolić na utrzymanie pełnej uwagi przy długich sekwencjach. Raport M2 jest też rzadkim przykładem transparentności technicznej od chińskiego dostawcy: szczegółowo dokumentuje nie tylko sukcesy, ale i ślepe zaułki — odrzucone architektury sub-kwadratowe, problemy z load balancingiem ekspertów. Dla inżynierów AI budujących własne modele to bezpłatna mapa drogowa do unikania kosztownych błędów. Rynkowo, sukces M3 wzmocni pozycję MiniMax w segmencie open-source modeli agentowych.
Co dalej?
- MiniMax zapowiedział blog techniczny szczegółowo opisujący MSA — jego publikacja będzie pierwszym testem wiarygodności zapowiedzianych wyników przyspieszenia
- Raport techniczny M2 jest już dostępny na Hugging Face — deweloperzy mogą weryfikować opisane wyniki Forge i MTP niezależnie
- Pełna premiera M3 nie ma ogłoszonej daty — firma zapowiedziała „Something BIG is coming"; konkretny termin pokaże, czy harmonogram odpowiada ambicjom architektury
Źródła
- VentureBeat — MiniMax teases upcoming M3 model with new sparse attention mechanism and 15.6X long-context response speed boost
- Hugging Face Papers — MiniMax M2 Technical Report




