Meituan LongCat-2.0: 1,6T MoE na chińskich ASIC, MIT, wyżej niż GPT-5.5

Meituan ujawnił LongCat-2.0 — model Mixture-of-Experts o 1,6 biliona parametrów wytrenowany wyłącznie na chińskich układach ASIC — i udostępnił go na licencji MIT. Model przez ostatnie dwa miesiące dominował na platformie OpenRouter pod anonimową nazwą „Owl Alpha", zanim firma zdecydowała się go ujawnić. W benchmarku SWE-bench Pro, mierzącym autonomiczne rozwiązywanie zadań inżynierskich w realnych repozytoriach, LongCat-2.0 uzyskał 59,5 punktu — powyżej 58,6 GPT-5.5 od OpenAI.

Najważniejsze w skrócie

1,6 biliona parametrów (MoE), aktywne ~48 mld per token — context window: 1 milion tokenów
Wytrenowany na klastrze ponad 50 000 chińskich układów ASIC, bez użycia GPU Nvidia
SWE-bench Pro: 59,5 pkt (LongCat-2.0) vs. 58,6 pkt (GPT-5.5)
Podczas anonimowej fazy jako „Owl Alpha" na OpenRouter: ~559 mld tokenów dziennie, wzrost 242% miesięcznie
Licencja MIT — waga modelu dostępna wkrótce na GitHub i Hugging Face

Architektura: sparse attention i eliminacja idle compute

Rdzeń LongCat-2.0 to agresywna optymalizacja MoE: 1,6 biliona parametrów łącznych przy aktywacji zaledwie 33–56 mld na token (średnio 48 mld). Meituan nazywa to „Zero-Compute Experts" — rutynowe zapytania trafiają do lżejszych podsieci, eliminując idle compute charakterystyczny dla gęstych modeli.

Obsługa context window o długości 1 miliona tokenów bez przeciążenia pamięci to zasługa LongCat Sparse Attention (LSA). LSA rozwiązuje problem kwadratowego kosztu uwagi przez trzy mechanizmy działające niezależnie: Streaming-aware Indexing (przetwarza dane w sekwencyjnych blokach wyrównanych do HBM, zamiast losowych odczytów), Cross-Layer Indexing (jeden pass indeksujący obsługuje kilka kolejnych warstw) i Hierarchical Indexing (dwuetapowy coarse-to-fine scoring). Dodatkowo wbudowany moduł N-gram Embedding rozszerza embedding space o ~135 mld parametrów w 5-gram dimensions ortogonalnie względem struktury MoE.

Post-training: trzy izolowane klastry ekspertów

Zamiast jednego ujednoliconego sygnału RLHF, Meituan zastosował MOPD (Multi-teacher Optimization via Mixture of Specialized Experts). Post-training prowadzony jest w trzech izolowanych klastrach: Agent Experts (precyzja wywołań narzędzi, parsowanie parametrów API, mechanizmy self-correction), Reasoning Experts (chain-of-thought, matematyka, wielokrokowa logika) i Interaction Experts (instrukcje, faktualność, guardrails). Podczas inference gate-routing scala te klastry bez wzajemnej degradacji.

Na SWE-bench Pro model uzyskuje 59,5 pkt, co lekko przekracza GPT-5.5 (58,6). W Terminal-Bench 2.1 wynik to 70,8 pkt, w SWE-bench Multilingual — 77,3 pkt, w FORTE (symulator korporacyjnych workflowów) — 73,2 pkt. Na ogólnych benchmarkach agentycznych jak BrowseComp model ustępuje Claude Opus 4.8, jednak w wąskiej domenie inżynierii oprogramowania jest konkurencyjny z czołówką modeli zamkniętych.

Strategia handlowa i infrastruktura

Wagi modelu mają być opublikowane „wkrótce" na GitHub i Hugging Face Hub — na razie dostępna jest platforma API. Meituan wprowadził dwutorowy model rozliczenia: standardowe pay-as-you-go ($0,75/$2,95 za milion tokenów wejście/wyjście) oraz Token Packs kupowane z góry na 30 dni, sprzedawane cztery razy dziennie w limitowanych flashsalach. Kluczowy wyróżnik: trafienia w context cache nie są rozliczane — co istotnie obniża koszt iteracyjnej pracy z dużymi repozytoriami kodu.

Trenowanie bez Nvidia

Wytrenowanie modelu tej skali wyłącznie na krajowych układach ASIC to sygnał strukturalny dla całej branży. Dotychczas trenowanie modeli frontier klasy wymagało dużych klastrów GPU NVIDIA (H100/H200/B200). Meituan pokazał, że 50 000 chińskich ASIC wystarczy do zbudowania modelu osiągającego wyniki zbliżone do zamkniętych liderów — i to w warunkach, gdy dostęp do układów Nvidia jest ograniczony przez eksportowe regulacje USA.

Dlaczego to ważne?

LongCat-2.0 przecina jednocześnie kilka istotnych osi. Po pierwsze, 1,6T MoE trenowane bez GPU Nvidia podważa tezę o nieuchronnym uzależnieniu chińskich firm od zachodniej infrastruktury obliczeniowej. Jeśli Meituan może trenować near-frontier model na krajowych ASIC, pojawia się pytanie, jak blisko inne chińskie firmy są od podobnej niezależności.

Po drugie, timing jest nieprzypadkowy: OpenAI ograniczyło dostęp do GPT-5.6 na żądanie rządu USA, a Anthropic wcześniej zdjął Mythos 5 z produkcji. W tej luce LongCat-2.0 pojawia się jako open-source, MIT-licencjonowana alternatywa, dostępna globalnie bez ograniczeń eksportowych. Firmy szukające high-performance modelu do autonomicznego kodowania mają teraz opcję poza zamkniętymi API.

Po trzecie, wyniki na SWE-bench Pro pokazują, że gap między modelami zamkniętymi a open-weight skurczył się do mniej niż jednego punktu procentowego w domenie, gdzie liczy się to najbardziej dla deweloperów.

Co dalej?

Pełne wagi LongCat-2.0 mają być opublikowane na GitHub i Hugging Face — Meituan nie podał daty, ale strony repozytoriów są już aktywne z komunikatem „Model weights coming soon"
Firma zapowiedziała kontynuację linii LongCat opartej na krajowych ASIC — sukces LongCat-2.0 zwiększa presję na inne chińskie laboratoria, by pójść tą samą drogą
Regulatorzy USA obserwują, jak zakazy eksportu GPU wpływają na chińskie zdolności AI — LongCat-2.0 dostarczy argumentów obu stronom debaty