MiniMax M2.7 — model językowy zdolny do udziału we własnym treningu

MiniMax M2.7 to duży model językowy (LLM) oparty na architekturze Mixture-of-Experts, opracowany przez chińską firmę MiniMax i udostępniony publicznie w kwietniu 2026 roku. Wyróżnia się na tle innych modeli tym, że uczestniczył w optymalizacji własnego procesu treningowego — co MiniMax określa mianem pierwszego kroku w kierunku samoewolucji modeli AI. Zrozumienie tego, jak M2.7 działa i czym różni się od wcześniejszych podejść, jest przydatne dla każdego, kto śledzi kierunek rozwoju systemów agentic AI.

Najważniejsze w skrócie

M2.7 to model tekstowy klasy LLM, zbudowany na architekturze sparse MoE — łącznie 230 mld parametrów, ale podczas inferencji aktywnych jest tylko ok. 10 mld
Model uczestniczył w optymalizacji własnego środowiska treningowego (scaffoldu — zestawu narzędzi, skryptów i reguł sterujących procesem uczenia) przez ponad 100 rund, uzyskując wg deklaracji MiniMax 30% wzrost wydajności wewnętrznych benchmarków
Na benchmarku SWE-Pro osiąga 56,22% — wynik zbliżony do zamkniętych modeli klasy frontier
Obsługuje okno kontekstu do 200 tys. tokenów i natywną współpracę wielu agentów (Agent Teams)
Wagi modelu są dostępne open-source na Hugging Face. Model działa też przez API na platformie MiniMax

Czym jest MiniMax M2.7?

M2.7 to duży model językowy (text-to-text LLM) — nie jest to platforma, framework ani środowisko treningowe, lecz konkretny model generatywny, który przetwarza tekst na wejściu i generuje tekst na wyjściu. Można go uruchomić lokalnie, przez API MiniMax lub za pośrednictwem infrastruktury NVIDIA NIM.

Architektura modelu to sparse Mixture-of-Experts zbudowane na bazie transformera. Łącznie zawiera 230 miliardów parametrów, z czego podczas pojedynczej inferencji aktywnych jest 10 miliardów. Model składa się z 62 warstw, warstwy ukrytej o rozmiarze 3072, oraz 256 ekspertów lokalnych — na każdy token aktywowanych jest 8 z nich. NVIDIA Fenomen MoE polega na tym, że sieć nie przetwarza każdego tokenu przez cały swój potencjał obliczeniowy — mechanizm routingu decyduje, które „eksperckie" podsieci są potrzebne w danym kontekście. Dzięki temu model zachowuje pojemność dużego modelu bez ponoszenia pełnych kosztów inferencji przy każdym zapytaniu.

Model obsługuje okno kontekstu o długości 200 tysięcy tokenów. To wystarczy, by w jednej sesji umieścić całą bazę kodu projektu lub wieloetapowy dziennik eksperymentów badawczych.

Kto za nim stoi?

Model opracowała firma MiniMax, chiński startup AI z siedzibą w Szanghaju, znany wcześniej z modeli generowania wideo (Hailuo) i modeli tekstowych z serii M2. Wagi M2.7 zostały udostępnione publicznie 11 kwietnia 2026 roku — zarówno na Hugging Face, jak i przez NVIDIA NIM. Model jest dostępny do użytku komercyjnego na warunkach zmodyfikowanej licencji MIT.

Jak działa?

Architektura MoE i routing ekspertów

W klasycznym modelu gęstym (dense transformer) każdy token przepływa przez wszystkie parametry sieci — każda warstwa pełnej wielkości uczestniczy w obliczeniu. W modelu MoE istnieje wiele wyspecjalizowanych podsieci (ekspertów), a mechanizm bramkujący (gate/router) dla każdego tokenu wybiera tylko kilka z nich. W przypadku M2.7 architektura używa top-k routingu ekspertów, przy wskaźniku aktywacji rzędu 4,3% — spośród 256 ekspertów aktywowanych jest jednocześnie 8.

Konsekwencją jest to, że model jest znacznie tańszy w obsłudze niż gęsty model o porównywalnych możliwościach. Jednocześnie quality modelu zależy od tego, jak dobrze mechanizm routingu przyporządkowuje dane zapytanie do właściwych ekspertów — co jest nietrywialnym problemem treningowym.

Interleaved thinking

M2.7 pracuje dwuetapowo: zanim sformułuje odpowiedź, najpierw przeprowadza wewnętrzny proces rozumowania — niewidoczny dla użytkownika ciąg kroków logicznych. Ten wewnętrzny łańcuch myśli jest zachowywany między kolejnymi wymianami w rozmowie i wpływa na spójność dalszych odpowiedzi. To jeden z mechanizmów pozwalających modelowi utrzymywać kontekst w długich, wieloetapowych zadaniach.

Pętla samoewolucji

Najbardziej komentowaną cechą M2.7 jest jego udział we własnym procesie treningowym. MiniMax kazał modelowi zoptymalizować wydajność programistyczną wewnętrznego scaffoldu. M2.7 działał w pełni autonomicznie, wykonując iteracyjną pętlę:

analizuj trajektorie błędów → planuj zmiany → modyfikuj kod scaffoldu → uruchamiaj ewaluacje → porównuj wyniki → zdecyduj o zachowaniu lub cofnięciu zmian — przez ponad 100 rund.

W tym procesie model samodzielnie odkrywał optymalizacje: wyszukiwanie optymalnych kombinacji parametrów próbkowania, projektowanie bardziej szczegółowych wytycznych workflow oraz wykrywanie pętli w logice agenta.

Według danych MiniMax, ta procedura przełożyła się na 30% wzrost wydajności wewnętrznych benchmarków. Warto podkreślić: nie jest to autonomiczne przepisywanie własnych wag przez model — chodzi o optymalizację systemu i infrastruktury, w których model operuje, przez sam ten model. To istotna różnica wobec bardziej radykalnych wyobrażeń o samomodyfikujących się systemach AI.

Z jakich elementów się składa?

Ekosystem wokół M2.7 opiera się na kilku wyraźnie zdefiniowanych komponentach, opisanych w oficjalnej dokumentacji MiniMax:

Agent Harness — środowisko operacyjne modelu, zbudowane z narzędzi do zarządzania pamięcią hierarchiczną, instrumentów ewaluacyjnych oraz mechanizmów guardrails (zabezpieczeń). To tu model wykonuje zadania agentowe.
Agent Teams — mechanizm natywnej współpracy wielu instancji modelu. Różne instancje zachowują odrębne tożsamości i mogą wspólnie realizować złożone zadania, gdzie konieczne jest adversarial reasoning lub stabilne rozdzielenie ról między agentami.
Persistent Memory — trwała pamięć między sesjami, umożliwiająca modelowi budowanie i aktualizowanie wiedzy o kontekście projektu, historii eksperymentów i preferencjach użytkownika.
Hierarchical Skills — composable, autochaining umiejętności, które model może łączyć w łańcuchy do realizacji złożonych zadań, z automatycznym debugowaniem.
Evaluation Infra — wewnętrzna infrastruktura ewaluacyjna, obejmująca benchmarki i punkty kontrolne dla człowieka.

Do czego może być używany?

Zgodnie z deklaracjami producenta oraz niezależnymi testami, M2.7 jest ukierunkowany na kilka konkretnych obszarów zastosowań:

Inżynieria oprogramowania end-to-end — nie tylko pisanie fragmentów kodu, ale pełny cykl: analiza logów, debugowanie, code security review, zarządzanie wieloplikowymi repozytoriami. Model jest opisywany jako wspierający live production debugging, obejmujące monitoring metryk, analizę śladów, weryfikację bazy danych oraz decyzje w stylu SRE.
Biurowe zadania produktywności — edycja dokumentów Excel, PowerPoint, Word z obsługą wieloetapowych modyfikacji i wysokiej wierności edycji. Na benchmarku GDPval-AA, który ocenia ekspertyzę domenową w 45 modelach, M2.7 osiąga wynik ELO 1495, najwyższy wśród modeli open-source.
Autonomiczne eksperymenty badawcze — w ramach MLE Bench Lite (22 konkursy ML działające na pojedynczej karcie A30 GPU) model samodzielnie realizował pełne cykle eksperymentalne.
Interaktywna rozrywka — model wykazuje zachowaną spójność tożsamości i inteligencję emocjonalną, co producent wskazuje jako bazę dla interaktywnych aplikacji rozrywkowych.

Czym różni się od innych rozwiązań?

Vs. modele gęste (GPT-4, Claude Opus)

Modele gęste aktywują wszystkie swoje parametry za każdym razem, gdy generują odpowiedź na zapytanie użytkownika — co jest kosztowne obliczeniowo, ale zapewnia spójność. M2.7 jako MoE aktywuje jedynie ~4,3% parametrów na token, co radykalnie obniża koszt obsługi każdego zapytania.

Vs. inne modele open-source MoE (Mixtral, DeepSeek)

Mixtral 8x7B i DeepSeek-V3 to wcześniejsze przykłady architektury MoE w otwartym ekosystemie. M2.7 wyróżnia się na ich tle przede wszystkim mechanizmem samoewolucji oraz ukierunkowaniem na zadania agentic z dużym oknem kontekstu (200K tokenów vs. 32K w Mixtral). DeepSeek-V3 jest bliższym konkurentem — podobna skala, podobna architektura, ale bez dokumentowanego mechanizmu autonomicznej optymalizacji własnej infrastruktury treningowej.

Vs. zamknięte modele frontier (GPT-4o, Claude Sonnet 4.6)

M2.7 nie osiąga wyników top modeli zamkniętych na wszystkich benchmarkach. Jednocześnie analiza kosztów wskazuje, że uruchomienie standardowego testu inteligencji kosztuje na M2.7 176 dolarów (ok. 700 zł) w porównaniu do 547 dolarów (ok. 2200 zł) dla GLM-5 przy zbliżonym poziomie wyników. To czyni M2.7 atrakcyjnym w scenariuszach wymagających masowej inferencji przy ograniczonym budżecie.

Najważniejsze ograniczenia / wyzwania

Weryfikacja deklaracji samoewolucji. 30% wzrost wydajności na wewnętrznych benchmarkach MiniMax nie został potwierdzony przez niezależne instytucje. To deklaracja producenta, nie zweryfikowany fakt zewnętrzny.
Niespójność na benchmarkach zewnętrznych. Materiał VentureBeat wskazuje, że na BridgeBench (benchmark do oceny „vibe coding") M2.5 zajął 12. miejsce, podczas gdy M2.7 tylko 19. — co sugeruje, że nie we wszystkich obszarach M2.7 przewyższa poprzednika.
Jurysdykcja i regulacje. Model jest rozwijany przez chińską firmę i podlega prawu chińskiemu. Może to być istotna bariera dla wdrożeń w sektorach regulowanych lub organizacjach działających pod reżimami compliance w USA i Unii Europejskiej.
Brak lokalnego/offline deployment w niektórych konfiguracjach. O ile wagi są dostępne open-source, pełna infrastruktura Agent Harness wymaga chmury lub dedykowanego sprzętu — nie jest to model gotowy do pracy offline bez znacznych nakładów infrastrukturalnych.
Złożoność zarządzania ekspertami. W środowiskach produkcyjnych architektura MoE wymaga starannej konfiguracji równoważenia obciążenia między ekspertami. Nieoptymalna konfiguracja może prowadzić do degradacji wydajności.
Status samoewolucji. Jak wprost podaje MiniMax w oficjalnym komunikacie, mechanizm samoewolucji jest na wczesnym etapie eksploracyjnym. Nie jest to dojrzały, produkcyjny system autonomicznego treningu modelu.

Dlaczego ta technologia jest istotna?

MiniMax M2.7 jest interesujący nie tyle ze względu na samą wydajność benchmarkową — ta jest porównywalna z kilkoma innymi modelami tej klasy — lecz ze względu na kierunek, który reprezentuje. Modele AI były do tej pory projektowane przez ludzi, trenowane przez ludzi i ewaluowane przez ludzi. M2.7 jest pierwszym publicznie dostępnym, open-source modelem, który uczestniczył w autonomicznej optymalizacji własnej infrastruktury treningowej w udokumentowanej i opisanej skali.

To może sugerować przesunięcie w modelu kosztów R&D modeli AI. Jeśli model potrafi iterować własne narzędzia treningowe szybciej niż ludzki zespół inżynierów, koszt marginalny poprawy modelu spada. To może zmienić dynamikę konkurencji między laboratoriami AI, faworyzując te, które wcześniej zainwestują w infrastrukturę samooptymalizacji.

Z perspektywy przedsiębiorstw, M2.7 otwiera praktyczne pytanie: czy AI może być nie tylko narzędziem wspierającym pracę inżynierów, ale aktywnym uczestnikiem iteracji własnych systemów? Na obecnym etapie jest to pytanie otwarte — M2.7 dostarcza pierwszych danych, ale nie rozstrzyga go. Architektura MoE z 200K oknem kontekstu i natywną obsługą wieloagentową jest też sama w sobie wartością dla organizacji budujących autonomiczne systemy agentic, niezależnie od kwestii samoewolucji.

Warto obserwować, jak inne laboratoria — Anthropic, Google DeepMind, Mistral — odpowiedzą na ten kierunek. Logika recursive self-improvement, nawet w ograniczonej formie demonstrowanej przez M2.7, to coś, czego industria nie może zignorować.

Podsumowanie

MiniMax M2.7 to open-source model językowy klasy frontier, oparty na architekturze sparse MoE (230 mld parametrów, 10 mld aktywnych). Jego wyróżnikiem jest udokumentowany udział w autonomicznej optymalizacji własnej infrastruktury treningowej — co MiniMax określa jako „samoewolucję". Model jest dostępny na Hugging Face, NVIDIA NIM i przez API MiniMax. Jego wyniki benchmarkowe plasują go wśród mocniejszych modeli open-source, choć nie dorównują jeszcze czołowym modelom zamkniętym. Samoewolucja jako mechanizm jest na wczesnym, eksploracyjnym etapie — jednak kierunek, który wyznacza, jest istotny dla całej branży.