Claude Opus 4.8: rzetelność agentyczna i dynamic workflows

Anthropic ogłosił 28 maja 2026 roku premierę Claude Opus 4.8 — aktualizacji klasy Opus dostępnej od razu dla wszystkich użytkowników w tej samej cenie co Opus 4.7. Model wprowadza mierzalne poprawy w rzetelności, zadaniach agentycznych i kodowaniu, a jednocześnie debiutuje z funkcją dynamic workflows i kontrolami poziomu wysiłku.

Najważniejsze w skrócie

Opus 4.8 jest czterokrotnie rzadziej niż Opus 4.7 skłonny przemilczeć błędy w pisanym przez siebie kodzie
Na benchmark CursorBench przekracza wszystkie poprzednie modele Opus na każdym poziomie wysiłku
Na Legal Agent Benchmark osiąga najwyższy dotychczas wynik i jako pierwszy przekracza 10% w standardzie all-pass
Na Online-Mind2Web (przeglądarka/computer-use) osiąga 84% — wyraźnie powyżej Opus 4.7 i GPT-5.5
Fast mode Opus 4.8 jest trzykrotnie tańszy niż w poprzednich modelach: $10/$50 za milion tokenów wejście/wyjście
Dynamic workflows w Claude Code pozwala uruchamiać setki równoległych subagentów w jednej sesji

Rzetelność jako priorytet

Jednym z najistotniejszych aspektów Opus 4.8 jest to, co Anthropic określa jako honesty — skłonność do sygnalizowania wątpliwości zamiast pochopnego zgłaszania postępu. W środowiskach agentycznych to istotna różnica: model, który niesprawdzone wyniki prezentuje jako pewne, może prowadzić do kaskadowych błędów w wieloetapowych przepływach pracy.

Według danych w System Card, Opus 4.8 jest czterokrotnie rzadziej skłonny do pomijania niekomentowanych wad w napisanym przez siebie kodzie w porównaniu z Opus 4.7. Zespół ds. bezpieczeństwa Anthropic ocenił, że model osiąga „nowe szczyty we wskaźnikach cech prospołecznych, takich jak wspieranie autonomii użytkownika i działanie w jego najlepszym interesie". Wskaźniki zachowań niezgodnych z przeznaczeniem — takich jak oszustwo czy współpraca przy nadużyciach — są istotnie niższe niż w Opus 4.7 i zbliżone do Claude Mythos Preview.

Wyniki benchmarkowe

Opus 4.8 osiąga wyniki wyraźnie powyżej swojego poprzednika w kilku kluczowych testach. Na CursorBench — narzędziu opracowanym przez Cursor do oceny modeli w zadaniach inżynierskich — przekracza wszystkie poprzednie wersje Opus na każdym poziomie wysiłku, jednocześnie osiągając efektywność narzędzi: mniej kroków dla tej samej jakości. Na Online-Mind2Web, benchmarku mierzącym zdolność do obsługi przeglądarki jako agent, Opus 4.8 osiąga 84% — wyraźny skok ponad Opus 4.7 i GPT-5.5.

Anthropic opublikował też tabelę porównawczą Opus 4.8 z Opus 4.7, GPT-5.5 i Gemini 3.1 Pro na siedmiu benchmarkach pokrywających kodowanie, rozumowanie i pracę umysłową. Opus 4.8 wygrywa sześć z siedmiu testów; jedyny przegrany pojedynek to terminalowy coding, gdzie GPT-5.5 zachowuje przewagę.

Benchmark	Opus 4.8	Opus 4.7	GPT-5.5	Gemini 3.1 Pro
Agentic coding (SWE-Bench Pro)	69,2%	64,3%	58,6%	54,2%
Agentic terminal coding (Terminal-Bench 2.1)	74,6%	66,1%	78,2%	70,3%
Multidisciplinary reasoning (Humanity’s Last Exam) — bez narzędzi	49,8%	46,9%	41,4%	44,4%
Multidisciplinary reasoning (Humanity’s Last Exam) — z narzędziami	57,9%	54,7%	52,2%	51,4%
Agentic computer use (OSWorld-Verified)	83,4%	82,8%	78,7%	76,2%
Knowledge work (GDPval-AA, wynik)	1890	1753	1769	1314
Agentic financial analysis (Finance Agent v2)	53,9%	51,5%	51,8%	43,0%

Źródło: Anthropic, „Introducing Claude Opus 4.8" (28 maja 2026). Wszystkie modele na Terminal-Bench 2.1 testowane z harness Terminus-2. W oryginalnej tabeli kolumna Opus 4.8 jest wyróżniona graficznie.

W prawniczym Legal Agent Benchmark model jako pierwszy przekracza próg 10% w standardzie all-pass, osiągając tym samym najwyższy wynik spośród wszystkich testowanych modeli. W kontekście zawodowych zastosowań prawniczych ten poziom dokładności przekłada się bezpośrednio na to, ile realnej pracy prawników można delegować do systemu z dużą dozą pewności.

W zadaniach finansowych testerzy z sektora inwestycyjnego zaobserwowali konsekwentnie wyższą jakość analiz, szybsze ukończenie zadań i wyższy stosunek sygnału do szumu — w szczególności zdolność do proaktywnego wskazywania problemów z danymi wejściowymi i wyjściowymi, których inne modele regularnie nie wykrywały. W Genie, agencie AI Databricks do pracy z danymi i wiedzą, model wykazał też skokową poprawę w rozumowaniu agentycznym — szybciej rozwiązując głębsze, wieloetapowe pytania, przy koszcie tokenów o 61% niższym niż Opus 4.7.

Dynamic workflows i nowe funkcje

Kluczową nowością po stronie infrastruktury jest dynamic workflows — dostępna w fazie research preview dla planów Enterprise, Team i Max. Funkcja pozwala Claude Code zaplanować zadanie, a następnie uruchomić setki równoległych subagentów w jednej sesji. Subagenty działają dłużej niż dotychczas, a model weryfikuje wyniki przed przekazaniem ich użytkownikowi.

Praktyczny przykład podany przez Anthropic: Claude Code z Opus 4.8 jest w stanie przeprowadzić migrację całej bazy kodu — obejmującej setki tysięcy linii — od startu do merge'a, z istniejącymi testami jako kryterium jakości. To poziom automatyzacji, który dotychczas wymagał ręcznej koordynacji wielu inżynierów.

Równolegle Anthropic wprowadza kontrole wysiłku w claude.ai i Cowork — użytkownicy mogą wybrać poziom nakładu obliczeniowego modelu: niższy wysiłek to szybsze odpowiedzi i wolniejsze zużycie limitów, wyższy to lepsze wyniki kosztem czasu. Messages API zyskuje możliwość aktualizacji instrukcji systemowych w trakcie działania agenta, bez resetowania cache.

Ceny i dostępność

Ceny standardowe Opus 4.8 pozostają niezmienione: $5 za milion tokenów wejście i $25 za milion tokenów wyjście. Natomiast fast mode staje się trzykrotnie tańszy niż w poprzednich modelach: $10/$50 za milion tokenów. Przy pracy z 2,5-krotnie wyższą prędkością to istotna zmiana dla deweloperów budujących systemy agentyczne o wysokiej przepustowości.

Tryb	Wejście (/1M tok.)	Wyjście (/1M tok.)	Prędkość
Opus 4.8 — standard	$5	$25	bazowa
Opus 4.8 — fast mode	$10	$50	2,5× szybciej
Opus 4.7 — fast mode (dla porównania)	$30	$150	bazowa

Źródło: Anthropic, cennik z 28 maja 2026. Standardowe ceny Opus 4.8 niezmienione vs Opus 4.7; fast mode potaniał 3× przy 2,5× wyższej przepustowości.

Model dostępny jest za pomocą identyfikatora `claude-opus-4-8` przez API Anthropic, a także we wszystkich interfejsach claude.ai.

Dlaczego to ważne?

Opus 4.8 to nie tylko aktualizacja benchmarkowa — to sygnał zmiany priorytetów w tym, jak Anthropic buduje modele frontier. Dotychczasowe wersje Opus były oceniane głównie przez pryzmat inteligencji i wydajności. Opus 4.8 przesuwa akcent na rzetelność: model, który wątpi i sygnalizuje niepewność, jest bardziej użyteczny w środowiskach produkcyjnych niż model, który często popełnia błędy. W systemach agentycznych, gdzie jeden niekomentowany błąd może propagować się przez dziesiątki kroków, ta cecha ma bezpośrednie przełożenie na niezawodność całego systemu.

Trzykrotna redukcja ceny fast mode i wprowadzenie dynamic workflows obniżają próg wejścia dla zastosowań wymagających dużej przepustowości i długich sesji agentycznych. To może przyspieszyć adopcję klasy Opus w segmentach, gdzie dotychczas ograniczał ją koszt.

Ważny kontekst dla dalszego rozwoju: Anthropic zapowiedział, że pracuje nad klasą modeli o wyższej inteligencji niż Opus — projektem Glasswing i modelem Mythos, który jest już testowany przez wąską grupę organizacji w kontekście cyberbezpieczeństwa. Opus 4.8 to etap obecny, nie finalny.

Co dalej?

Anthropic zapowiedział premierę modeli klasy Mythos dla szerokiej publiczności w najbliższych tygodniach — po opracowaniu odpowiednich zabezpieczeń dla modeli o tak wysokiej inteligencji (projekt Glasswing)
Dynamic workflows wchodzi jako research preview — Anthropic zbiera feedback przed pełnym wdrożeniem funkcji
Zapowiadano prace nad modelami o porównywalnych możliwościach co Opus, ale przy niższym koszcie — nie podano harmonogramu