Wyciek Claude Code i Mythos: Strategiczny Wstrząs w Anthropic i Nowa Era Autonomicznych Agentów

W marcu 2026 roku branża sztucznej inteligencji stanęła w obliczu jednego z najbardziej brzemiennych w skutki incydentów w swojej krótkiej historii, gdy błąd konfiguracyjny doprowadził do ujawnienia fundamentów technologicznych firmy Anthropic. Przypadkowa publikacja ponad 512 000 linii kodu źródłowego flagowego narzędzia Claude Code oraz wyciek danych dotyczących nieogłoszonego modelu Mythos obnażyły nie tylko architekturę agentyczną lidera rynku, ale także jego agresywną strategię walki z konkurencją i plany finansowe opiewające na miliardy dolarów. Wydarzenie to, choć zaklasyfikowane jako błąd ludzki, stanowi bezprecedensowy wgląd w to, jak najpotężniejsze laboratoria AI na świecie budują kolejną warstwę narzędzi deweloperskich, które mają szansę zastąpić tradycyjne paradygmaty programowania.

Najważniejsze w skrócie

Skala wycieku: Ujawnienie pełnego kodu źródłowego Claude Code (512 tys. linii, 1900 plików) w wersji 2.1.88 poprzez błąd w pliku mapy źródłowej npm.
Nowa hierarchia modeli: Potwierdzenie istnienia modelu Claude Mythos (warstwa Capybara), który ma oferować skokową poprawę wydajności względem Claude Opus 4.5.
Mechanizmy Undercover: Odkrycie funkcji maskującej obecność AI w projektach open-source, pozwalającej pracownikom Anthropic na przesyłanie kodu bez oznaczeń o autorstwie sztucznej inteligencji.
Wojna obronna: Zastosowanie systemów Anti-Distillation, wstrzykujących fałszywe dane do ruchu API, aby uniemożliwić konkurencji trenowanie modeli na wynikach Claude.
Potęga finansowa: Potwierdzenie, że Claude Code generuje już 2,5 mld USD (ok. 10 mld PLN) rocznego powtarzalnego przychodu (ARR), napędzając wycenę firmy do poziomu 380 mld USD (ok. 1,5 bln PLN).

Anatomia błędu – od npm do globalnego wycieku

Incydent, który wstrząsnął doliną krzemową, nie był wynikiem wyrafinowanego cyberataku, lecz prozaicznego błędu w procesie CI/CD (Continuous Integration/Continuous Deployment). 31 marca 2026 roku deweloperzy Anthropic opublikowali w publicznym rejestrze npm wersję 2.1.88 pakietu @anthropic-ai/claude-code. Przez przeoczenie w pliku .npmignore lub błędną konfigurację narzędzia budującego, do pakietu dołączono plik cli.js.map o rozmiarze 59,8 MB.

W świecie nowoczesnego JavaScriptu, mapy źródłowe (source maps) służą do mapowania zminimalizowanego kodu produkcyjnego z powrotem na czytelny dla człowieka kod źródłowy TypeScript. W tym konkretnym przypadku plik mapy zawierał tablicę sourcesContent, w której osadzony był kompletny, niezaszyfrowany kod źródłowy całego narzędzia. Badacz bezpieczeństwa Chaofan Shou zauważył błąd niemal natychmiast, a informacja o wycieku błyskawicznie obiegła media społecznościowe, osiągając ponad 30 milionów wyświetleń w serwisie X.

Sytuację pogorszył fakt, że Anthropic jako swoje środowisko uruchomieniowe wybrał, nowoczesny runtime dla JavaScriptu, który firma nabyła pod koniec 2025 roku. Jak się okazało, w Bunie istniał znany błąd (zgłoszony jako issue #28001), który powodował generowanie map źródłowych w trybie produkcyjnym, nawet jeśli dokumentacja sugerowała ich wyłączenie. To ironia losu: własne narzędzie firmy przyczyniło się do ujawnienia jej najpilniej strzeżonych tajemnic handlowych.

Claude Code jako "Uprząż Agentyczna" – dekonstrukcja architektury

Analiza ujawnionego kodu pozwoliła społeczności deweloperskiej na zrozumienie, że Claude Code nie jest tylko estetyczną nakładką na API. To, co wyciekło, to tzw. "agentic harness" – kompletna warstwa oprogramowania, która pośredniczy między modelem LLM a systemem operacyjnym użytkownika.

Główny moduł, query.ts, zawiera pętlę agentyczną, która pozwala modelowi na autonomiczne podejmowanie decyzji w czasie rzeczywistym. System nie czeka na pełną odpowiedź modelu; zamiast tego potrafi zacząć wykonywać komendy bash lub operacje na plikach, podczas gdy model wciąż generuje dalszą część instrukcji (tzw. streaming tool execution).

Architektura wieloagentowa (Swarms)

Jednym z najbardziej fascynujących odkryć w kodzie jest trójpoziomowy system koordynacji agentów, wewnętrznie nazywany „swarms” (roje). System ten pozwala na:

Sub-agenty: Wyspecjalizowane jednostki do pojedynczych zadań (np. czytanie dokumentacji).
Koordynatorzy: Agenci zarządzający pracą wielu sub-agentów, synchronizujący ich postępy.
Zespoły (Teams): Najwyższa warstwa orkiestracji, zdolna do prowadzenia równoległych prac w odizolowanych drzewach roboczych Git (worktrees), co zapobiega konfliktom w kodzie.

Dla porównania, konkurencyjne rozwiązania, takie jak wczesne wersje OpenClaw, opierały się na liniowym przetwarzaniu zadań. Anthropic postawił na architekturę „Manager-Worker”, gdzie model nadrzędny dzieli problem na fragmenty i deleguje je do równolegle działających procesów, co drastycznie skraca czas potrzebny na rozwiązanie złożonych błędów w dużych repozytoriach.

System pamięci "Self-Healing" – rozwiązanie problemu halucynacji

Większość modeli AI traci spójność w długich sesjach z powodu ograniczonego okna kontekstowego i narastającej entropii (szumu informacyjnego). Wyciek Claude Code ujawnił, jak Anthropic rozwiązał ten problem za pomocą trójwarstwowego systemu pamięci.

Fundamentem jest plik MEMORY.md – lekki indeks wskaźników, który jest stale obecny w kontekście modelu. Zamiast przechowywać tam surowe dane, system trzyma jedynie krótkie odniesienia (ok. 150 znaków na wpis) do konkretnych plików tematycznych (Topic Files), które są doczytywane przez agenta tylko wtedy, gdy są potrzebne.

Najważniejszą innowacją jest jednak zasada Strict Write Discipline (Rygorystyczna Dyscyplina Zapisu). Agent ma zakaz aktualizowania swojej pamięci o faktach, które nie zostały fizycznie zapisane i potwierdzone w systemie plików. Jeśli model „myśli”, że naprawił błąd, ale komenda zapisu się nie powiodła, system pamięci odrzuca tę informację, chroniąc kontekst przed zanieczyszczeniem halucynacjami. Co więcej, kod wprost instruuje model, by traktował własne wspomnienia jedynie jako „wskazówkę” (hint) i zawsze weryfikował je z aktualnym stanem bazy kodu przed podjęciem krytycznych działań.

Atrybut	Claude Opus 4.5	Claude Mythos (Capybara)
Pozycjonowanie	Flagowiec ogólnego przeznaczenia	Model do zadań o najwyższym ryzyku i skomplikowaniu
Cyberbezpieczeństwo	Reaktywne (wykrywanie błędów)	Proaktywne (odnajdywanie podatności zero-day)
Koszt operacyjny	Wysoki	Ekstremalnie wysoki (wymaga specjalistycznej infrastruktury)
Dostępność	Publiczna	Zamknięte testy dla wybranych organizacji obronnych

Kairos i autoDream – kiedy sztuczna inteligencja zaczyna śnić

Wśród 44 ukrytych funkcji za flagami dostępu (feature flags) odkrytych w kodzie, najwięcej emocji wzbudził projekt o nazwie kodowej KAIROS. Jest to tryb autonomicznego demona działającego w tle, który zmienia Claude Code z narzędzia reaktywnego w proaktywnego asystenta.

W ramach KAIROS działa proces autoDream, odpowiedzialny za nocną konsolidację pamięci. Mechanizm ten aktywuje się, gdy użytkownik jest nieaktywny, i wykonuje następujące operacje:

Analizuje logi z całego dnia pracy.
Usuwa sprzeczne obserwacje (np. jeśli dwa sub-agenty miały inną teorię na temat przyczyny błędu).
Przekształca niejasne notatki w zweryfikowane fakty.

To podejście przypomina ludzki proces snu, podczas którego mózg porządkuje wspomnienia. Dzięki temu, gdy programista rano wraca do pracy, Claude Code ma „czysty” i wysoce istotny kontekst, gotowy do dalszego działania bez konieczności ponownego tłumaczenia założeń projektu. Implementacja wykorzystuje oddzielny proces (forked subagent), co gwarantuje, że proces „śnienia” nie uszkodzi głównego wątku myślowego podczas aktywnej sesji.

Kontrowersyjna etyka – Undercover Mode i ghost-contributing

Jednym z najbardziej dyskusyjnych znalezisk w wycieku jest moduł undercover.ts. Dokumentacja i komentarze w kodzie ujawniają, że Anthropic stworzył infrastrukturę do tzw. ghost-contributing w projektach open-source.

Gdy pracownik Anthropic używa Claude Code w zewnętrznym repozytorium, aktywuje się tryb „Undercover”, który:

Usuwa wszelkie oznaczenia typu (AI-authored) lub Co-authored-by: Claude.
Zabrania modelowi wspominania o wewnętrznych nazwach kodowych (np. Capybara, Tengu).
Formatuje wiadomości commitów tak, aby wyglądały na napisane przez człowieka.

W kodzie widnieje jasna instrukcja: „Nie spal swojej przykrywki” (Do not blow your cover). Co więcej, w trybie tym nie istnieje opcja wyłączenia maskowania, co sugeruje, że jest to systemowa polityka firmy mająca na celu ciche wdrażanie kodu AI do projektów, od których Anthropic zależy, bez informowania o tym ich społeczności. Budzi to poważne pytania o transparentność i normy etyczne w świecie otwartego oprogramowania.

Wojna na destylację – jak Anthropic truje dane konkurencji

Wyciek ujawnił również, że Anthropic prowadzi aktywną wojnę technologiczną z podmiotami próbującymi kopiować jego modele. W pliku claude.ts odnaleziono flagę ANTI_DISTILLATION_CC, która steruje systemem „zatruwania” danych treningowych.

Jeśli system podejrzewa, że ruch API jest nagrywany w celu destylacji (trenowania mniejszych modeli na wynikach Claude), wstrzykuje on do odpowiedzi serwera fałszywe definicje narzędzi (fake tools). Model konkurencji, ucząc się na takich danych, przejmuje błędne wzorce logiczne, co czyni go bezużytecznym w realnych zastosowaniach. Dodatkowo, firma stosuje mechanizm podpisywania podsumowań rozumowania – zamiast pełnej ścieżki logicznej, klient otrzymuje jedynie skrót chroniony kryptograficznie, co uniemożliwia zewnętrznym obserwatorom zrozumienie „wnętrza” procesu myślowego modelu.

Claude Mythos i warstwa Capybara – nowa era potęgi obliczeniowej

Równolegle z wyciekiem kodu, błąd w systemie CMS Anthropic ujawnił istnienie nowej generacji modeli o nazwie kodowej Mythos. Mythos nie jest tylko kolejną iteracją – to początek nowej warstwy modelowej o nazwie Capybara, pozycjonowanej powyżej dotychczasowego szczytu, jakim był Opus.

Według wewnętrznych dokumentów, Mythos wykazuje „skokową zmianę” w testach kodowania, rozumowania akademickiego i cyberbezpieczeństwa. Model ten potrafi samodzielnie planować i wykonywać wieloetapowe operacje, nie czekając na akceptację człowieka na każdym kroku.

Atrybut	Claude Opus 4.5	Claude Mythos (Capybara)
Pozycjonowanie	Flagowiec ogólnego przeznaczenia	Model do zadań o najwyższym ryzyku i skomplikowaniu
Cyberbezpieczeństwo	Reaktywne (wykrywanie błędów)	Proaktywne (odnajdywanie podatności zero-day)
Koszt operacyjny	Wysoki	Ekstremalnie wysoki (wymaga specjalistycznej infrastruktury)
Dostępność	Publiczna	Zamknięte testy dla wybranych organizacji obronnych

Anthropic wyraził obawy, że Mythos jest „daleko przed jakimkolwiek innym modelem w zdolnościach cybernetycznych”, co może wywołać falę ataków trudnych do powstrzymania przez dzisiejsze systemy obronne. Z tego powodu firma planuje udostępnić model najpierw „obrońcom” (cyber defenders), aby mogli oni wzmocnić swoje systemy przed upublicznieniem technologii.

Ekonomia Anthropic – 2,5 miliarda dolarów z terminala

Dla analityków rynkowych najbardziej uderzające są dane finansowe, które wypłynęły przy okazji incydentu. Claude Code, mimo że z pozoru jest niszowym narzędziem dla programistów, stał się potężną maszyną do zarabiania pieniędzy. Generuje on już 2,5 mld USD (ok. 10 mld PLN) rocznego powtarzalnego przychodu (ARR). To wynik, który podwoił się w ciągu zaledwie kilku miesięcy 2026 roku.

Wzrost ten jest napędzany przez klientów korporacyjnych, którzy odpowiadają za 80% przychodów firmy Anthropic skutecznie pozycjonuje się jako bezpieczna alternatywa dla OpenAI, zdobywając kontrakty u 8 z 10 największych firm z listy Fortune 10. W lutym 2026 roku firma zamknęła rundę finansowania Serii G o wartości 30 mld USD (ok. 120 mld PLN), co przy wycenie 380 mld USD (ok. 1,52 bln PLN) czyni ją jedną z najdroższych prywatnych spółek na świecie.

Sukces komercyjny Claude Code wynika z jego głębokiej integracji z codzienną pracą inżynierów. Szacuje się, że pracownicy samego Anthropic piszą za jego pomocą od 70% do 90% całego kodu firmy. W skali globalnej narzędzie to odpowiada już za 4% wszystkich publicznych commitów na GitHubie, co świadczy o jego błyskawicznej adopcji.

Kontekst rynkowy i rywalizacja – Spud kontra Mythos

Incydenty w Anthropic zbiegły się w czasie z doniesieniami o zakończeniu trenowania modelu „Spud” przez OpenAI. „Spud”, trenowany w gigantycznym kompleksie Stargate z użyciem 100 000 procesorów, ma być bezpośrednią odpowiedzią na dominację Claude w sektorze kodowania.

Rywalizacja między Samem Altmanem a Dario Amodeim weszła w fazę „wojny totalnej”. Podczas gdy OpenAI skupia się na budowaniu „superaplikacji” i masowym rynku konsumenckim, Anthropic konsekwentnie buduje ekosystem dla przedsiębiorstw, co widać w sukcesie Claude Code i planowanym debiucie giełdowym (IPO) w październiku 2026 roku.

W tle tej walki gigantów pojawiają się mniejsi gracze, jak chiński Z.AI z modelem GLM-5, który stawia na efektywność kosztową, oraz firmy takie jak Cursor, które – jak ujawniono – potrafią potajemnie korzystać z modeli innych firm (np. Kimi 2.5 od Moonshot AI), aby utrzymać konkurencyjność.

Bezpieczeństwo i zagrożenia w łańcuchu dostaw

Wyciek kodu Claude Code nie jest tylko stratą własności intelektualnej dla Anthropic, ale także realnym zagrożeniem dla użytkowników. Publiczne ujawnienie logiki orkiestracji, „Hooków” i sposobu zarządzania serwerami MCP pozwala cyberprzestępcom na precyzyjne projektowanie ataków. Atakujący mogą teraz tworzyć złośliwe repozytoria, które po otwarciu przez Claude Code wykorzystają jego uprawnienia do eksfiltracji danych lub kradzieży kluczy API.

Sytuację dramatycznie skomplikował wykryty tego samego dnia atak na bibliotekę axios. Użytkownicy, którzy aktualizowali Claude Code za pomocą npm w krytycznym oknie czasowym, mogli nieświadomie zainstalować złośliwą wersję biblioteki axios zawierającą trojana zdalnego dostępu (RAT). Anthropic stanowczo zarekomendował przejście na natywny instalator (install.sh), który omija publiczne rejestry npm i zapewnia bezpieczniejszy mechanizm aktualizacji.

Dlaczego to ważne?

Wydarzenia z marca 2026 roku to nie tylko kolejna sensacja technologiczna, ale fundamentalna lekcja o kruchości systemów, na których opieramy przyszłość gospodarki opartej o AI. Wyciek kodu Claude Code udowodnił, że przewaga rynkowa nie tkwi już w samej architekturze LLM, ale w „uprzęży agentycznej” – warstwie, która zarządza pamięcią, narzędziami i autonomią. Odkrycie mechanizmów takich jak KAIROS czy „Self-Healing Memory” pokazuje, że branża przechodzi od modeli czatowych do systemów operacyjnych dla agentów AI.

Jednocześnie, ujawnienie trybu „Undercover” rzuca cień na etykę korporacyjną w dobie automatyzacji. Jeśli najwięksi gracze potajemnie wdrażają kod AI w projekty infrastrukturalne bez informowania o tym społeczności, ryzykujemy utratę zaufania do ruchu open-source. Z perspektywy rynkowej, wyciek ten jest „prezentem” dla konkurencji wartym lata badań i miliardy dolarów, co może doprowadzić do wyrównania szans między Anthropic a mniejszymi laboratoriami. Dla firm zajmujących się bezpieczeństwem, model Mythos to ostrzeżenie przed nadchodzącą erą „Hakingu w skali AI”, gdzie obrona musi stać się równie autonomiczna jak atak.

Co dalej?

Standardy Atrybucji AI: Spodziewana jest presja na stworzenie technicznych standardów oznaczania kodu napisanego przez AI, aby przeciwdziałać praktykom typu „Undercover Mode”.
Odwrót od npm: Deweloperzy narzędzi AI o wysokich uprawnieniach prawdopodobnie zrezygnują z publicznych rejestrów paczek na rzecz natywnych instalatorów i podpisanych binariów.
Wyscig Zbrojeń Capybara-Spud: Najbliższe miesiące przyniosą premierę modeli nowej generacji, które przedefiniują granice możliwości sztucznej inteligencji w STEM i cyberbezpieczeństwie.