Anthropic opublikowało 8 czerwca 2026 szczegółowy raport opisujący stopień automatyzacji własnych prac badawczych i inżynierskich przy użyciu modeli Claude. Dane są konkretne: ponad 80% kodu trafiającego do produkcji pisze Claude, a typowy inżynier w Q2 2026 generuje 8 razy więcej kodu dziennie niż w 2024. Firma ostrzega wprost — rekurencyjne samodoskonalenie AI (RSI), czyli zdolność systemu do samodzielnego projektowania swojego następcy, może nadejść szybciej, niż większość instytucji jest na to gotowa.
Najważniejsze w skrócie
- Ponad 80% kodu mergeowanego do produkcyjnej bazy Anthropic było w maju 2026 autorstwa Claude
- Typowy inżynier generuje w Q2 2026 8x więcej kodu dziennie niż w 2024 (przy nadzorze Claude)
- Claude Opus 4.6 radzi sobie z zadaniami trwającymi 12 godzin — w marcu 2024 Claude Opus 3 obsługiwał 4-minutowe
- Anthropic zapowiada organizację rozmów z politykami, badaczami i innymi firmami AI o koordynacji potencjalnego spowolnienia prac frontier AI
- Dokument opisuje trzy scenariusze przyszłości: stagnacja możliwości, dalsze przyspieszenie i pełne RSI
Przejście do ery agentów: dane wewnętrzne
Raport — sygnowany przez Marinę Favaro i Jacka Clarka z Anthropic Institute — prezentuje dane, które przez lata były niedostępne publicznie. Kluczowa liczba: ponad 80% kodu mergeowanego do produkcji to praca Claude, nie ludzi. Jeszcze przed uruchomieniem Claude Code w lutym 2025 była to "jednocyfrowa" wartość.
Wzrost produktywności inżynierów nie jest prostym efektem automatycznego generowania kodu. Raport wskazuje dwa momenty przełomowe. Pierwszy nastąpił w 2025 roku, gdy Claude przestał tylko sugerować kod do wklejenia, a zaczął samodzielnie uruchamiać środowisko i testować wyniki. Drugi — w 2026, gdy modele zaczęły pracować autonomicznie przez dłuższe okresy. W Q2 2026 typowy inżynier merguje 8x więcej kodu dziennie niż w 2024.
Równie istotny jest wskaźnik długości zadań. Dane z METR — niezależnej organizacji mierzącej możliwości systemów AI — pokazują, że horyzont czasowy zadań podwaja się co 4 miesiące. W marcu 2024 Claude Opus 3 radził sobie z zadaniami trwającymi 4 minuty. Rok później Claude Sonnet 3.7 obsługiwał 1,5-godzinne. W maju 2026 Claude Opus 4.6 kończy zadania 12-godzinne. Jeśli trend utrzyma się, zadania trwające kilka dni mogą być w jego zasięgu jeszcze w tym roku.
Krok w stronę badań: od wykonawcy do dyrektora
Raport nie ogranicza się do danych o kodowaniu. Anthropic pokazuje dane z eksperymentów, w których Claude samodzielnie prowadził badania.
W benchmarku optymalizacji kodu — testowanym przy każdej premierze modelu — Claude dostaje kod trenujący mały model AI i ma zadanie: przyspieszyć go tak, żeby nie zepsuć poprawności. Claude Opus 4.0 (maj 2025) osiągał przyspieszenie 3x ponad punkt startowy. Claude Mythos Preview (kwiecień 2026) osiąga przyspieszenie 52x. Dla porównania: doświadczony badacz ludzki, pracując 4–8 godzin, osiąga 4x.
Raport opisuje też bardziej otwarte zadanie badawcze. W kwietniu 2026 Anthropic opublikowało pierwsze demo, w którym agenci Claude prowadzili cały projekt badawczy end-to-end w dziedzinie AI safety (czy słabszy model może niezawodnie nadzorować silniejszy). Dwa ludzkich badaczy osiągnęły 23% z możliwej do odrobienia "luki" w ciągu tygodnia. Agenci Claude osiągnęli 97% w 800 godzinach łącznego czasu obliczeniowego, za ok. 18 000 dolarów w compute. Ludzie wciąż wybrali problem i stworzyli rubrykę oceniania — ale wszystkie eksperymenty zaplanowały agenty.
Trzy scenariusze przyszłości
Raport wyróżnia trzy możliwe ścieżki.
Scenariusz pierwszy: trendy stagnują, ale obecne możliwości AI rozprzestrzeniają się szeroko. Możliwości mogą podążać ścieżką S-curve zamiast wykładniczej, a ograniczeniem mogą być energia, chipy lub architektura. Nawet zamrożone na obecnym poziomie modele oznaczałyby ogromne zmiany — firma licząca 100 osób coraz częściej może robić pracę 1000-osobowej organizacji. Anthropic uznaje ten scenariusz za najmniej prawdopodobny.
Scenariusz drugi: AI labs nadal notują przyspieszenia złożone, ale ludzie zachowują rolę w wyznaczaniu kierunków badań. Produktywność indywidualna eksploduje. Firma 100-osobowa może dorównywać 10 000- lub 100 000-osobowej. To zarazem scenariusz ryzyka: ta sama infrastruktura może być wykorzystana do masowego nadzoru lub operacji wpływu.
Scenariusz trzeci: AI osiąga pełne RSI i zaczyna projektować swoje kolejne wersje. W tym świecie tempo postępu AI wyznaczałoby dostępność zasobów obliczeniowych. Rola ludzi skurczyłaby się do nadzoru i weryfikacji "wirtualnego laboratorium" zarządzanego przez AI. Anthropic przyznaje, że ma "najgorsze intuicje" co do tego, jak taki świat by wyglądał.
Koordynacja i możliwość spowolnienia
Anthropic stawia pytanie wprost: czy branża powinna mieć możliwość skoordynowanego spowolnienia lub pauzy. Firma nie wzywa do jednostronnego zatrzymania — to, jak pisze, tylko zmieniłoby lidera wyścigu, nie stworzyłoby potrzebnej debaty. Zamiast tego Anthropic zapowiada zorganizowanie rozmów z politykami, naukowcami, społeczeństwem obywatelskim i innymi firmami AI na temat warunków weryfikowalnej pauzy.
To bezprecedensowe w skali branży — firma na szczycie hierarchii możliwości publicznie pisze, że gdyby skoordynowany mechanizm weryfikacji pauzy istniał, sama by go zastosowała, jeśli inne firmy frontier zrobiłyby to samo.
Dlaczego to ważne?
Raport Anthropic wyróżnia się na tle podobnych dokumentów branżowych z jednego powodu: zawiera liczby z wewnętrznych systemów firmy, a nie tylko zewnętrzne benchmarki. Dane o 80% udziale Claude w kodzie produkcyjnym czy 8-krotnym wzroście produktywności inżynierów są weryfikowalne — firma zobowiązała się do ich ujawnienia.
To zmienia dyskusję o RSI z akademickiej w operacyjną. Rekurencyjne samodoskonalenie nie jest już tylko konceptem z kart bezpieczeństwa — to kierunek, w którym Anthropic idzie w zaplanowany, mierzalny sposób. Różnica między obecnym stanem a pełnym RSI to wciąż zdolność do wybierania problemów i oceny wyników, ale raport pokazuje, że Claude systematycznie wchodzi w te obszary.
Co dalej?
- Anthropic zapowiedziało organizację rozmów z politykami, badaczami i innymi firmami AI o warunkach koordynowanej pauzy — termin nie jest znany.
- Wewnętrzny cel: Claude Code ma osiągnąć jakość kodu "stricte lepszą" niż ludzka w ciągu roku od daty raportu (przed czerwcem 2027).
- METR wskazuje, że horyzont zadań Claude może przekroczyć kilka dni jeszcze w 2026 roku — to byłoby przekroczenie kolejnego progu w automatyzacji pracy badawczej.
Źródła
- Anthropic — When AI builds itself
- METR — Measuring AI ability to complete long-horizon tasks





