Robocikowo>ROBOCIKOWO
12 czerwca 2026 · 4 min lekturyAnthropicClaudeAI Safety

Claude Fable 5 blokuje biologię i cybersecurity — Anthropic tłumaczy dlaczego

Pan Robocik12 czerwca 2026 · 4 min czytania
Claude Fable 5 blokuje biologię i cybersecurity — Anthropic tłumaczy dlaczego

Anthropic 9 czerwca 2026 publicznie udostępniło Claude Fable 5 — pierwszy model klasy Mythos dostępny szerokiemu gronu użytkowników. Jednak premierze towarzyszą bezprecedensowe ograniczenia: model aktywnie blokuje pytania z zakresu biologii, chemii i cyberbezpieczeństwa, kierując je do wcześniejszego modelu Opus 4.8.

Najważniejsze w skrócie

  • Fable 5 blokuje całą biologię i chemię (nie tylko biobroń) oraz cybersecurity
  • Model osiągnął 78% na ExploitBench (vs 40% dla Opus 4.8 i 69% dla Mythos Preview)
  • Cena API: 10 USD za milion tokenów wejściowych i 50 USD za milion wyjściowych
  • Pełny dostęp tylko przez Project Glasswing dla wybranych specjalistów
  • Fałszywe alarmy (odmowy legalnych zapytań) w mniej niż 5% sesji

Jeden model, dwa oblicza

Claude Fable 5 i Mythos 5 to ten sam model bazowy. Różnica polega na warstwie bezpieczeństwa: Fable 5 jest wyposażone w system klasyfikatorów oparty na Constitutional AI, który wykrywa zakazane tematy i potencjalne próby obejścia zabezpieczeń (jailbreaki). Gdy klasyfikator wykryje takie zapytanie, model nie odpowiada przez Fable 5 — zamiast tego przełącza się na wcześniejszy Claude Opus 4.8 i informuje użytkownika o tej zmianie.

Anthropic prowadzi Projekt Glasswing od kilku miesięcy w ograniczonym preview — Mythos 5 pozostaje dostępne jedynie dla „małej grupy obrońców cybernetycznych" zweryfikowanych przez program. Firma ogłasza teraz jego rozszerzenie, które ma nastąpić „w konsultacji z rządem USA", oraz nowy program dla organizacji nauk przyrodniczych, który zniesie blokady biologii i chemii dla zaufanych partnerów przy zachowaniu blokad cybersecurity.

Skąd tak ostre ograniczenia?

Głównym powodem jest dramatyczny skok możliwości modelu w zakresie cyberbezpieczeństwa. Mythos 5 osiągnął 78% na benchmarku ExploitBench — teście podatnych na ataki fragmentów kodu. Dla porównania: poprzedni Opus 4.8 uzyskał 40%, a Mythos Preview 69%. Anthropic twierdzi, że model potrafi wykonywać wieloetapowe ataki hakerskie (agentic hacking) ze znacznie większą sprawnością niż wcześniejsze modele.

Jednak zewnętrzna walidacja budzi pewne wątpliwości. Instytut Bezpieczeństwa AI rządu brytyjskiego przetestował Mythos Preview i stwierdził, że jego wyniki na zestawie zadań Capture the Flag były porównywalne z GPT-5.5 OpenAI, co sugeruje, że nie jest to przełom właściwy jednemu modelowi.

Dla biologii i chemii Anthropic rozszerzyło restrykcje poza biobroń na wszystkie zapytania z tych dziedzin. Uzasadnienie: dobrze zasobne złośliwe podmioty mogłyby wykorzystać nawet pozornie niewinne pytania do wspomagania ryzykownych badań biologicznych w znacznie efektywniejszy sposób niż przy wcześniejszych modelach.

Dylemat „zaufanego dostępu"

Te same zapytania, które w rękach profesjonalistów ds. cyberbezpieczeństwa i badaczy biologicznych są korzystne, mogłyby być niebezpieczne, gdyby były dostępne złośliwym podmiotom.

Anthropic, dokumentacja techniczna Claude Fable 5

W praktyce oznacza to, że badacze akademiccy, studenci biologii czy pentesterzy pracujący bez weryfikacji Project Glasswing napotkają blokady na pytania, które w modelach konkurencji pozostają bez ograniczeń. Badacze cyberbezpieczeństwa krytykowali to podejście jako nadmiernie restrykcyjne dla legalnej pracy, co Anthropic po części przyznaje — twierdząc, że system jest celowo „surowszy niż idealny".

Cennik i dostęp

Fable 5 jest dostępne przez API i Enterprise za 10 USD za milion tokenów wejściowych i 50 USD za milion wyjściowych. To odpowiednio 67–100% drożej niż analogiczne modele GPT-5.5 OpenAI, co może mieć znaczenie w kontekście rosnącej presji cenowej na rynku modeli frontierowych. Istniejące plany subskrypcji Anthropic zachowują dostęp do Fable 5 do 22 czerwca, po czym wymagane będą „kredyty użycia".

Dlaczego to ważne?

Fable 5 to prawdopodobnie pierwsza demonstracja tego, jak laboratoria AI zamierzają zarządzać coraz silniejszymi modelami: przez selektywny, weryfikowany dostęp, a nie przez jednolite ograniczenia dla wszystkich. To podejście rodzi fundamentalne pytania o to, kto decyduje, kto jest „zaufany", i czy takie decyzje powinny leżeć wyłącznie w gestii firm prywatnych.

Dla branży cyberbezpieczeństwa i nauk przyrodniczych ten model dostępu może stać się normą dla kolejnych generacji modeli AI. Firmy z branży muszą planować zarówno procesy weryfikacji dostępu, jak i scenariusze, w których kluczowe narzędzia mogą być zablokowane z przyczyn bezpieczeństwa, na które nie mają wpływu.

Drugie istotne pytanie dotyczy konkurencji: skoro GPT-5.5 osiąga podobne wyniki na benchmarkach cybersecurity przy mniejszych ograniczeniach dostępu, użytkownicy mają realną alternatywę bez dodatkowych barier. To tworzy presję rynkową na Anthropic.

Co dalej?

  • Rozszerzenie Project Glasswing dla specjalistów cyberbezpieczeństwa planowane „w konsultacji z rządem USA" — bez podanego terminu.
  • Nowy program zaufanego dostępu dla organizacji nauk przyrodniczych zostanie uruchomiony równolegle z Glasswing — szczegóły Anthropic ma ogłosić osobno.
  • Przywrócenie dostępu do Fable 5 w standardowych planach subskrypcji Anthropic uzależnione od osiągnięcia „wystarczających mocy obliczeniowych" — brak określonego terminu.

Źródła

Udostępnij ten artykuł