MiniMax M3: nowa architektura sparse attention i 15,6× szybszy dekoding
MiniMax opublikował raport techniczny dotyczący serii M2 i zapowiedział M3 — model ze sparse attention (MSA), który przy kontekście miliona tokenów dekoduje 15,6 razy szybciej niż M2. To pierwsza architektura sub-kwadratowa, która według firmy nie traci na precyzji wieloskokowego rozumowania.