EverMind przełamuje barierę 100 milionów tokenów. Nowa architektura MSA redefiniuje pamięć długotrwałą w LLM

Firma EverMind zaprezentowała innowacyjną architekturę Memory Sparse Attention (MSA), która pozwala modelom językowym na obsługę kontekstu o długości 100 milionów tokenów. Rozwiązanie to ma na celu wyeliminowanie problemu „zapominania” informacji w rozbudowanych dialogach i analizach wielostronicowych dokumentów, oferując wydajność nieosiągalną dla dotychczasowych standardów rynkowych.

Najważniejsze w skrócie

EverMind wprowadził architekturę MSA, umożliwiającą obsługę do 100 mln tokenów przy minimalnym spadku precyzji (poniżej 5%).
System opiera się na mechanizmie Memory Sparse Attention, który dynamicznie selekcjonuje istotne fragmenty danych, zamiast przetwarzać cały kontekst jednocześnie.
Wdrożono technologię Document-wise RoPE, pozwalającą na precyzyjne pozycjonowanie informacji w gigantycznych zbiorach danych.
Rozwiązanie jest dostępne jako open-source w serwisie GitHub oraz zarchiwizowane w repozytorium Zenodo.

Architektura MSA: Koniec z „Impossible Triangle” pamięci AI?

Rozwój dużych modeli językowych (LLM) od lat rozbijał się o tzw. „niemożliwy trójkąt” długotrwałej pamięci: konieczność wyboru między skalowalnością, precyzją a wydajnością obliczeniową. Tradycyjne mechanizmy self-attention, znane z architektury Transformer, charakteryzują się kwadratową złożonością obliczeniową, co sprawia, że przetwarzanie bardzo długich sekwencji staje się astronomicznie drogie i powolne.

EverMind, startup inkubowany przez Shanda Group, ogłosił 18 marca 2026 roku publikację dokumentu badawczego pt. „Memory Sparse Attention for Efficient End-to-End Memory Model Scaling to 100M Tokens”. Zaproponowana architektura MSA ma ambicję stać się „wtyczką pamięciową”, która przekształca sposób, w jaki sztuczna inteligencja przechowuje i odzyskuje informacje.

Cztery filary technologii MSA

Aby osiągnąć pułap 100 milionów tokenów, inżynierowie EverMind zastosowali cztery kluczowe innowacje:

Memory Sparse Attention: Jest to różniczkowalny mechanizm rzadkiej uwagi, który zamiast analizować każde słowo w relacji do każdego innego, wybiera tylko najbardziej istotne podzbiory danych. Działa to na zasadzie dwuetapowej filtracji – najpierw na poziomie tematów (Topic-level), a następnie na poziomie konkretnych tokenów (Token-level).
Document-wise RoPE: Tradycyjne kodowanie pozycji (Rotary Positional Embedding) zawodzi przy ekstremalnych długościach. MSA stosuje relatywne pozycjonowanie wewnątrz dokumentów, co pozwala na stabilną ekstrakcję danych nawet z plików znajdujących się na samym końcu gigantycznego okna kontekstowego.
KV Cache Compression & Memory Parallel: To inżynieryjne rozwiązanie problemu fizycznych ograniczeń sprzętowych. MSA wykorzystuje wielopoziomowe przechowywanie (Tiered Storage), przenosząc mniej używane dane z pamięci GPU do RAM procesora i na dyski SSD, co pozwala na obsługę 100 mln tokenów na zaledwie dwóch układach NVIDIA H100.
Memory Interleave: Mechanizm ten umożliwia modelowi wykonywanie pętli „generatywne odzyskiwanie → rozszerzenie kontekstu”, co jest kluczowe w złożonym wnioskowaniu wieloetapowym (multi-hop reasoning).

Wydajność w testach: Igła w stogu siana

W branży AI standardowym testem dla długiego kontekstu jest „Needle-In-A-Haystack” (NIAH) – sprawdzian polegający na odnalezieniu konkretnej informacji ukrytej w ogromnej masie tekstu. Zgodnie z danymi udostępnionymi przez twórców, MSA utrzymuje niemal 100% dokładności przy 32 tys. tokenów, a przy skalowaniu do 100 mln tokenów spadek wydajności wynosi mniej niż 9%.

Dla porównania, wcześniejsze próby rozszerzania kontekstu często kończyły się zjawiskiem lost in the middle, gdzie model świetnie radził sobie z początkiem i końcem tekstu, ale całkowicie ignorował środek. MSA, dzięki hierarchicznemu podejściu do selekcji danych, wydaje się skutecznie omijać tę pułapkę.

Porównanie: MSA vs. Tradycyjny RAG

Warto zestawić MSA z popularną obecnie technologią Retrieval-Augmented Generation (RAG).

Cecha	RAG (Retrieval-Augmented Generation)	MSA (Memory Sparse Attention)
Integracja	Pamięć zewnętrzna (baza wektorowa)	Pamięć zintegrowana z architekturą modelu
Dostęp do danych	Sztywne wyszukiwanie semantyczne	Dynamiczna, różniczkowalna uwaga
Złożoność	Wymaga osobnego potoku danych	Działa end-to-end w ramach modelu
Precyzja	Ryzyko utraty kontekstu między fragmentami	Zachowuje relacje między dokumentami

MSA vs. Tradycyjny RAG

Podczas gdy RAG jest jak korzystanie z biblioteki (musimy wiedzieć, o co zapytać, by dostać książkę), MSA przypomina posiadanie ogromnej pamięci operacyjnej, do której model ma bezpośredni i inteligentny wgląd w czasie rzeczywistym.

Dlaczego to ważne?

Pojawienie się architektury MSA o pojemności 100 mln tokenów to sygnał, że branża AI przesuwa punkt ciężkości z „surowej mocy obliczeniowej” na „zarządzanie wiedzą”. Do tej pory ograniczenia okna kontekstowego (zazwyczaj do 128k lub 1M tokenów) wymuszały na deweloperach stosowanie skomplikowanych i często zawodnych systemów zewnętrznych baz danych.

Osiągnięcie EverMind może sugerować nadejście ery „Memory-as-a-Service” (MaaS). W takim scenariuszu pamięć AI przestaje być zamkniętym zasobem konkretnego dostawcy, a staje się wymiennym modułem, który można „podpiąć” do różnych rdzeni rozumujących (modeli AI). Dla sektora przedsiębiorstw oznacza to możliwość analizy całych archiwów prawnych, medycznych czy technicznych w ramach jednej sesji, bez obawy, że model „zapomni” o kluczowym zapisie z pierwszej strony umowy.

To także kluczowy krok w stronę autonomicznych agentów AI, takich jak projekt OpenClaw. Aby agent mógł skutecznie działać w świecie rzeczywistym przez tygodnie lub miesiące, musi posiadać ciągłość pamięci. MSA dostarcza fundamentu pod „cyfrowy mózg”, który nie resetuje się po każdym restarcie aplikacji, lecz buduje trwały zasób doświadczeń i wiedzy użytkownika.

Co dalej?

Implementacja w modelach produkcyjnych: Można spodziewać się, że w najbliższych miesiącach pierwsi dostawcy chmurowi zaczną integrować architekturę MSA lub jej pochodne, oferując okna kontekstowe liczone w dziesiątkach milionów tokenów.
Wpływ na rynek hardware: Sukces MSA, która optymalizuje wykorzystanie pamięci, może nieco ostudzić gorączkę zakupową najdroższych układów GPU, promując rozwiązania bardziej efektywne kosztowo i energetycznie.
Rozwój standardów open-source: Upublicznienie kodu na GitHubie prawdopodobnie zaowocuje szybkim powstaniem społecznościowych wersji modeli (np. na bazie Llama), które będą natywnie wspierać gigantyczną pamięć długotrwałą.

Źródła

Zenodo – Memory Sparse Attention for Efficient End-to-End Memory Model Scaling to 100M Tokens – https://zenodo.org/records/19103670
GitHub – Repozytorium EverMind MSA – https://github.com/EverMind-AI/MSA