Robocikowo>ROBOCIKOWO
Sztuczna Inteligencja

Anthropic przywraca Fable 5 i Mythos 5 z nowym frameworkiem jailbreaków

Anthropic przywraca Fable 5 i Mythos 5 z nowym frameworkiem jailbreaków

Anthropic przywrócił globalny dostęp do modeli Claude Fable 5 i Mythos 5 od 1 lipca 2026 — po tym jak administracja USA zniosła 30 czerwca kontrole eksportowe obowiązujące od 12 czerwca. Razem z ogłoszeniem Anthropic opublikował szczegółowy opis mechanizmów bezpieczeństwa modeli i propozycję branżowego frameworku oceny powagi jailbreaków, opracowanego wspólnie z Amazon, Microsoft, Google i partnerami programu Glasswing.

Najważniejsze w skrócie

  • Claude Fable 5 dostępny od 1 lipca 2026 globalnie na claude.ai, Claude Code i Claude Cowork
  • Kontrole eksportowe obowiązywały 19 dni (12–30 czerwca), blokowały dostęp zarówno użytkownikom krajowym, jak i zagranicznym
  • Nowy klasyfikator bezpieczeństwa blokuje opisaną technikę jailbreaku w ponad 99% przypadków
  • Anthropic, Amazon, Microsoft i Google proponują wspólny framework oceny powagi jailbreaków oparty na 4 kryteriach
  • Anthropic zobowiązuje się do rządowych testów pre-release dla modeli granicznych w obszarze bezpieczeństwa narodowego

Przyczyna zawieszenia i przeprowadzone testy

Kontrole eksportowe nałożono 12 czerwca po tym, jak badacze Amazon odkryli technikę pozwalającą obejść safeguardy Fable 5 — model wskazał kilka podatności w oprogramowaniu i w jednym przypadku wygenerował kod demonstracyjny do ich eksploatacji.

Anthropic przeprowadził następnie porównawcze testy na kilkunastu modelach. Wynik był jednoznaczny: te same podatności identyfikowały modele Claude Opus 4.8, GPT-5.5 i Kimi K2.7 — a kod demonstracyjny do jednej z nich mógł wygenerować każdy model testowanego zestawu, włącznie z Claude Haiku 4.5, Sonnet 4.6, Opus 4.6, Opus 4.7 i Opus 4.8 oraz GPT-5.4. Fable 5 nie oferował żadnych unikalnych zdolności ofensywnych niedostępnych w słabszych modelach.

W odpowiedzi firma wytrenowała nowy klasyfikator bezpieczeństwa, który blokuje opisaną technikę w ponad 99% przypadków. Naukowcy z centrum CAISI (Center for AI Standards and Innovation) Departamentu Handlu USA przetestowali zarówno poprzednie, jak i nowe safeguardy i potwierdzili ich skuteczność.

Framework oceny jailbreaków

Zarówno zawieszenie modeli, jak i ich przywrócenie ujawniły brak branżowego standardu pozwalającego obiektywnie oceniać powagę jailbreaku. Anthropic — wspólnie z Amazon, Microsoft, Google i innymi partnerami Glasswing — proponuje czterokryteriowy system:

  1. zysk zdolności
  2. zasięg zysku zdolności
  3. łatwość uzbrojenia
  4. wykrywalność

Analogii dostarcza znany w branży Common Vulnerability Scoring System (CVSS) stosowany do oceny podatności w oprogramowaniu. Jednocześnie Anthropic uruchamia nowy program na platformie HackerOne, gdzie badacze bezpieczeństwa mogą zgłaszać jailbreaki dotyczące Fable 5.

Nowe zobowiązania wobec rządu USA

Poza frameworkiem jailbreaków Anthropic ogłosił cztery konkretne zobowiązania wobec rządu USA:

  • dostęp rządowy przed premierą dla modeli istotnych z punktu widzenia bezpieczeństwa narodowego
  • szybkie informowanie rządu o poważnych jailbreakach
  • dedykowane zespoły i zasoby obliczeniowe do wspólnych badań
  • udział w wypracowaniu dobrowolnego branżowego standardu bezpieczeństwa i oceny modeli granicznych

Dostępność po przywróceniu

Od 1 lipca Fable 5 jest dostępny globalnie w planach Pro, Max, Team i wybranych Enterprise — pokrywając do 50% tygodniowych limitów użytkowania do 7 lipca, po czym dostęp wymaga zakupu kredytów użytkowania. Dostęp przez AWS, Microsoft Foundry i Google Cloud zostanie przywrócony możliwie szybko. Dostęp do Mythos 5 pozostaje ograniczony do organizacji z USA zatwierdzonych przez rząd w ramach programu Glasswing. Użytkownicy korzystający z Claude Code mają dostęp przez claude.ai.

Dlaczego to ważne?

Zawieszenie i przywrócenie Fable 5 ujawniło lukę, która dotyczy całej branży — brak wspólnego języka do oceny powagi jailbreaku AI w kontekście bezpieczeństwa narodowego. Propozycja czterokryteriowego frameworku to próba wypełnienia tej luki przez prywatnych graczy, zanim legislacja narzuci własne, potencjalnie mniej precyzyjne standardy.

Dla firm korzystających z modeli AI w pracy z wrażliwymi danymi istotne jest też to, że Anthropic publicznie potwierdził: technika, która doprowadziła do zawieszenia, nie dawała Fable 5 żadnych unikalnych zdolności niedostępnych w słabszych modelach. To ważna informacja dla organizacji oceniających, czy powrót do Fable 5 jest zasadny.

Głębsze zaangażowanie rządu USA w testowanie modeli przed premierą wyznacza wzorzec, który inni duzi laboratoryjni gracze — OpenAI, Google — będą musieli brać pod uwagę przy planowaniu własnych premier modeli granicznych.

Co dalej?

  • Anthropic zapowiedział szczegółowe opublikowanie frameworku jailbreaków po zebraniu opinii od kolejnych partnerów branżowych — w tym od firm spoza Glasswing zaproszonych do udziału.
  • Dostęp Fable 5 przez AWS, Google Cloud i Microsoft Foundry ma zostać przywrócony tak szybko, jak to możliwe — bez podania konkretnej daty.
  • Nowy program HackerOne do zgłaszania jailbreaków w Fable 5 jest już dostępny pod adresem hackerone.com/anthropic-cyber-jailbreak.

Źródła

Udostępnij ten artykuł