Standardowa atencja transformerowa ma kwadratową złożoność (O(n²)) względem długości kontekstu, co praktycznie uniemożliwia natywne 1M okno (potrzeba ~10¹² operacji na warstwę). Aproksymacje sparse attention istniały w literaturze od lat (Longformer, BigBird, Sparse Transformers), ale rzadko były wykorzystywane w treningu modeli frontier — LongCat Sparse Attention pokazuje, że wariant sparse może być wykorzystany w pełnoskalowym pre-treningu 1,6 bln modelu bez utraty jakości.
Mechanizm po raz pierwszy zaprezentowany razem z modelem LongCat-2.0 (grudzień 2025). Model 1,6 bln parametrów MoE, ~48B aktywnych per token, 1M kontekst, wytrenowany w pełni na chińskich AI ASIC superpodach.