Anthropic wycofał ukryty sabotaż Claude Fable 5 wobec badaczy AI

Anthropic wycofało się z polityki, która pozwalałaby firmie potajemnie obniżać jakość odpowiedzi Claude Fable 5 dla badaczy pracujących nad nowymi modelami AI — bez żadnego powiadomienia użytkownika. Decyzja zapadła po ostrych protestach społeczności badaczy AI. Firma przyznała, że "dokonała złego kompromisu" i zapowiedziała, że wszelkie ograniczenia związane z rozwojem modeli będą odtąd jawne dla użytkownika.

Najważniejsze w skrócie

Claude Fable 5 zawierał ukryte mechanizmy degradacji odpowiedzi dla zapytań związanych z rozwojem modeli AI — bez sygnalizowania użytkownikowi
Anthropic zmieniło podejście po fali krytyki ze strony badaczy AI i społeczności open-source
Firma przyznała: "dokonaliśmy złego kompromisu i przepraszamy, że nie znaleźliśmy właściwej równowagi"
Mechanizmy bezpieczeństwa dla AI research będą teraz widoczne — model poinformuje użytkownika, gdy odmawia lub przekierowuje zapytanie do słabszego modelu
Nowa jawna polityka oznacza, że sieć ochronna jest szersza: więcej niewinnych zapytań może trafić do filtrów niż przy mechanizmie ukrytym

Na czym polegał "ukryty sabotaż"

Gdy Anthropic uruchomiło Claude Fable 5 w czerwcu 2026, nowy model miał wbudowane kilka warstw zabezpieczeń. Część z nich była publiczna i oczekiwana: pytania dotyczące cyberbezpieczeństwa, biologii lub chemii mogły być przekierowywane do słabszego modelu, by utrudnić tworzenie cyberbroni czy broni biologicznej. Ale jedna z warstw była ukryta — i dotyczyła nie zagrożeń zewnętrznych, lecz bezpośrednich konkurentów Anthropic.

Jeśli model oceniał, że użytkownik próbuje trenować na jego odpowiedziach własny model AI — co Anthropic wprost zakazuje w regulaminie — jakość odpowiedzi była obniżana bez żadnego komunikatu. Użytkownik nie wiedział, że dostaje celowo gorszy output. Dla badaczy AI i firm zajmujących się open-source oznaczało to, że mogą pracować godzinami na "zdegradowanym" modelu, nie wiedząc o tym. Platforma do testowania bezpieczeństwa modeli, firma ewaluacyjna, badacz z ośrodka akademickiego — każdy kto dotknąłby tematu modeli AI, mógł zostać ukarany ciszą.

Anthropic uzasadniało tę decyzję w specyficzny sposób. W ogłoszeniu opublikowanym na blogu firmy stwierdzono, że skoro Claude staje się coraz skuteczniejszy w przyspieszaniu badań AI, firma chce mieć możliwość "spowolnienia lub tymczasowego wstrzymania" rozwoju frontier AI w warunkach zagrożenia. Ukryty mechanizm miał być trudniejszy do obejścia niż jawny.

Dlaczego środowisko zareagowało tak ostro

Reakcja była natychmiastowa. Dean Ball z Foundation for American Innovation napisał na X, że "degradacja wydajności przy badaniach ML bez informowania użytkownika jest szokująco wroga i fatalnie wyglądająca". Zarzut dotyczył nie tylko etyki procesu — ale i logiki. Anthropic pozycjonuje się jako firma dbająca o bezpieczeństwo AI. Ale ukryte limitowanie narzędzi badaczom AI safety de facto uniemożliwiałoby prace, które mają AI uczynić bezpieczniejszą.

Will Brown z otwartego startupu Prime Intellect celnie podsumował odczucia środowiska: "To trochę tak, jakby Anthropic mówiło: nie ufamy nikomu innemu, żeby prowadził badania AI. Tylko my mamy to robić." Dodał, że wyciąganie drabiny za sobą to działanie, które zamknęłoby przestrzeń dla badań bezpieczeństwa prowadzonych przez zewnętrzne podmioty.

Osobna kwestia to firmy ewaluacyjne — organizacje trzeciej strony, które testują modele frontier pod kątem bezpieczeństwa, wydajności i niezawodności. Gdyby Claude Fable 5 celowo pogarszał jakość przy takich testach, cały ekosystem weryfikacji zewnętrznej byłby zaburzony. To szczególnie ironiczne, bo Anthropic wielokrotnie nawoływało do niezależnych audytów modeli AI.

Nowa polityka: jawność zamiast tajności

"Zmieniamy zabezpieczenia Fable 5 dotyczące frontier LLM development tak, żeby były widoczne" — oświadczyło Anthropic w reakcji na krytykę. Teraz, gdy model podejrzewa, że zapytanie dotyczy trenowania konkurencyjnego modelu, zamiast po cichu degradować output, wprost odmówi odpowiedzi lub poinformuje użytkownika o przekierowaniu do słabszego modelu.

Firma przyznała, że transparentność ma swoją cenę: ukryty mechanizm był trudniejszy do obejścia, więc mógł działać precyzyjniej. Jawna sieć ochronna musi być szersza, by skutecznie blokować rzeczywiste naruszenia, co oznacza, że więcej niewinnych zapytań zostanie zablokowanych lub zredukowanych niż wcześniej. Anthropic deklaruje, że pracuje nad poprawą precyzji filtrów tak szybko, jak to możliwe.

Dlaczego to ważne?

Sprawa ukrytego sabotażu badaczy AI przez Anthropic otwiera pytanie, które branża AI będzie musiała rozstrzygnąć: kto ma prawo decydować, kto może prowadzić badania nad frontier AI? Obecna odpowiedź to de facto kilka dużych laboratoriów — OpenAI, Anthropic, Google DeepMind, Meta — które kontrolują dostęp do swoich modeli przez API i regulaminy. Dodanie ukrytych mechanizmów degradacji do tego zestawu narzędzi kontroli to jakościowa zmiana: nie tyle blokada, ile ciche upośledzenie.

Stawka dla otwartego ekosystemu badań AI jest wysoka. Środowisko open-source i zewnętrzne organizacje ewaluacyjne działają dziś w dużej mierze dzięki dostępowi do modeli przez API. Jeśli firmy zastrzegą sobie prawo do cichego pogarszania tego dostępu w sposób niezidentyfikowany przez użytkownika — cały model zewnętrznej weryfikacji i badań nad bezpieczeństwem traci sens. Decyzja Anthropic o wycofaniu ukrytej polityki jest krokiem we właściwym kierunku. Fakt, że taka polityka w ogóle pojawiła się w publicznym modelu, jest równie wymowny.

Co dalej?

Anthropic zapowiedziało poprawę precyzji filtrów dla frontier LLM development — brak konkretnego harmonogramu
Sprawa może przyspieszyć dyskusję legislacyjną o minimalnych standardach przejrzystości API dla modeli frontier — Illinois właśnie uchwaliło mocną ustawę AI safety, inne stany mogą pójść w jej ślady
Społeczność open-source i zewnętrzne organizacje ewaluacyjne powinny zaktualizować swoje metodologie testowania z uwzględnieniem możliwości ukrytych degradacji — nawet po wycofaniu tej polityki przez Anthropic