Anthropic ogłosił 28 maja 2026 roku premierę Claude Opus 4.8 — aktualizacji klasy Opus dostępnej od razu dla wszystkich użytkowników w tej samej cenie co Opus 4.7. Model wprowadza mierzalne poprawy w rzetelności, zadaniach agentycznych i kodowaniu, a jednocześnie debiutuje z funkcją dynamic workflows i kontrolami poziomu wysiłku.
Najważniejsze w skrócie
- Opus 4.8 jest czterokrotnie rzadziej niż Opus 4.7 skłonny przemilczeć błędy w pisanym przez siebie kodzie
- Na benchmark CursorBench przekracza wszystkie poprzednie modele Opus na każdym poziomie wysiłku
- Na Legal Agent Benchmark osiąga najwyższy dotychczas wynik i jako pierwszy przekracza 10% w standardzie all-pass
- Na Online-Mind2Web (przeglądarka/computer-use) osiąga 84% — wyraźnie powyżej Opus 4.7 i GPT-5.5
- Fast mode Opus 4.8 jest trzykrotnie tańszy niż w poprzednich modelach: $10/$50 za milion tokenów wejście/wyjście
- Dynamic workflows w Claude Code pozwala uruchamiać setki równoległych subagentów w jednej sesji
Rzetelność jako priorytet
Jednym z najistotniejszych aspektów Opus 4.8 jest to, co Anthropic określa jako honesty — skłonność do sygnalizowania wątpliwości zamiast pochopnego zgłaszania postępu. W środowiskach agentycznych to istotna różnica: model, który niesprawdzone wyniki prezentuje jako pewne, może prowadzić do kaskadowych błędów w wieloetapowych przepływach pracy.
Według danych w System Card, Opus 4.8 jest czterokrotnie rzadziej skłonny do pomijania niekomentowanych wad w napisanym przez siebie kodzie w porównaniu z Opus 4.7. Zespół ds. bezpieczeństwa Anthropic ocenił, że model osiąga „nowe szczyty we wskaźnikach cech prospołecznych, takich jak wspieranie autonomii użytkownika i działanie w jego najlepszym interesie". Wskaźniki zachowań niezgodnych z przeznaczeniem — takich jak oszustwo czy współpraca przy nadużyciach — są istotnie niższe niż w Opus 4.7 i zbliżone do Claude Mythos Preview.
Wyniki benchmarkowe
Opus 4.8 osiąga wyniki wyraźnie powyżej swojego poprzednika w kilku kluczowych testach. Na CursorBench — narzędziu opracowanym przez Cursor do oceny modeli w zadaniach inżynierskich — przekracza wszystkie poprzednie wersje Opus na każdym poziomie wysiłku, jednocześnie osiągając efektywność narzędzi: mniej kroków dla tej samej jakości. Na Online-Mind2Web, benchmarku mierzącym zdolność do obsługi przeglądarki jako agent, Opus 4.8 osiąga 84% — wyraźny skok ponad Opus 4.7 i GPT-5.5.
Anthropic opublikował też tabelę porównawczą Opus 4.8 z Opus 4.7, GPT-5.5 i Gemini 3.1 Pro na siedmiu benchmarkach pokrywających kodowanie, rozumowanie i pracę umysłową. Opus 4.8 wygrywa sześć z siedmiu testów; jedyny przegrany pojedynek to terminalowy coding, gdzie GPT-5.5 zachowuje przewagę.
| Benchmark | Opus 4.8 | Opus 4.7 | GPT-5.5 | Gemini 3.1 Pro |
|---|---|---|---|---|
| Agentic coding (SWE-Bench Pro) | 69,2% | 64,3% | 58,6% | 54,2% |
| Agentic terminal coding (Terminal-Bench 2.1) | 74,6% | 66,1% | 78,2% | 70,3% |
| Multidisciplinary reasoning (Humanity’s Last Exam) — bez narzędzi | 49,8% | 46,9% | 41,4% | 44,4% |
| Multidisciplinary reasoning (Humanity’s Last Exam) — z narzędziami | 57,9% | 54,7% | 52,2% | 51,4% |
| Agentic computer use (OSWorld-Verified) | 83,4% | 82,8% | 78,7% | 76,2% |
| Knowledge work (GDPval-AA, wynik) | 1890 | 1753 | 1769 | 1314 |
| Agentic financial analysis (Finance Agent v2) | 53,9% | 51,5% | 51,8% | 43,0% |
W prawniczym Legal Agent Benchmark model jako pierwszy przekracza próg 10% w standardzie all-pass, osiągając tym samym najwyższy wynik spośród wszystkich testowanych modeli. W kontekście zawodowych zastosowań prawniczych ten poziom dokładności przekłada się bezpośrednio na to, ile realnej pracy prawników można delegować do systemu z dużą dozą pewności.
W zadaniach finansowych testerzy z sektora inwestycyjnego zaobserwowali konsekwentnie wyższą jakość analiz, szybsze ukończenie zadań i wyższy stosunek sygnału do szumu — w szczególności zdolność do proaktywnego wskazywania problemów z danymi wejściowymi i wyjściowymi, których inne modele regularnie nie wykrywały. W Genie, agencie AI Databricks do pracy z danymi i wiedzą, model wykazał też skokową poprawę w rozumowaniu agentycznym — szybciej rozwiązując głębsze, wieloetapowe pytania, przy koszcie tokenów o 61% niższym niż Opus 4.7.
Dynamic workflows i nowe funkcje
Kluczową nowością po stronie infrastruktury jest dynamic workflows — dostępna w fazie research preview dla planów Enterprise, Team i Max. Funkcja pozwala Claude Code zaplanować zadanie, a następnie uruchomić setki równoległych subagentów w jednej sesji. Subagenty działają dłużej niż dotychczas, a model weryfikuje wyniki przed przekazaniem ich użytkownikowi.
Praktyczny przykład podany przez Anthropic: Claude Code z Opus 4.8 jest w stanie przeprowadzić migrację całej bazy kodu — obejmującej setki tysięcy linii — od startu do merge'a, z istniejącymi testami jako kryterium jakości. To poziom automatyzacji, który dotychczas wymagał ręcznej koordynacji wielu inżynierów.
Równolegle Anthropic wprowadza kontrole wysiłku w claude.ai i Cowork — użytkownicy mogą wybrać poziom nakładu obliczeniowego modelu: niższy wysiłek to szybsze odpowiedzi i wolniejsze zużycie limitów, wyższy to lepsze wyniki kosztem czasu. Messages API zyskuje możliwość aktualizacji instrukcji systemowych w trakcie działania agenta, bez resetowania cache.
Ceny i dostępność
Ceny standardowe Opus 4.8 pozostają niezmienione: $5 za milion tokenów wejście i $25 za milion tokenów wyjście. Natomiast fast mode staje się trzykrotnie tańszy niż w poprzednich modelach: $10/$50 za milion tokenów. Przy pracy z 2,5-krotnie wyższą prędkością to istotna zmiana dla deweloperów budujących systemy agentyczne o wysokiej przepustowości.
| Tryb | Wejście (/1M tok.) | Wyjście (/1M tok.) | Prędkość |
|---|---|---|---|
| Opus 4.8 — standard | $5 | $25 | bazowa |
| Opus 4.8 — fast mode | $10 | $50 | 2,5× szybciej |
| Opus 4.7 — fast mode (dla porównania) | $30 | $150 | bazowa |
Model dostępny jest za pomocą identyfikatora `claude-opus-4-8` przez API Anthropic, a także we wszystkich interfejsach claude.ai.
Dlaczego to ważne?
Opus 4.8 to nie tylko aktualizacja benchmarkowa — to sygnał zmiany priorytetów w tym, jak Anthropic buduje modele frontier. Dotychczasowe wersje Opus były oceniane głównie przez pryzmat inteligencji i wydajności. Opus 4.8 przesuwa akcent na rzetelność: model, który wątpi i sygnalizuje niepewność, jest bardziej użyteczny w środowiskach produkcyjnych niż model, który często popełnia błędy. W systemach agentycznych, gdzie jeden niekomentowany błąd może propagować się przez dziesiątki kroków, ta cecha ma bezpośrednie przełożenie na niezawodność całego systemu.
Trzykrotna redukcja ceny fast mode i wprowadzenie dynamic workflows obniżają próg wejścia dla zastosowań wymagających dużej przepustowości i długich sesji agentycznych. To może przyspieszyć adopcję klasy Opus w segmentach, gdzie dotychczas ograniczał ją koszt.
Ważny kontekst dla dalszego rozwoju: Anthropic zapowiedział, że pracuje nad klasą modeli o wyższej inteligencji niż Opus — projektem Glasswing i modelem Mythos, który jest już testowany przez wąską grupę organizacji w kontekście cyberbezpieczeństwa. Opus 4.8 to etap obecny, nie finalny.
Co dalej?
- Anthropic zapowiedział premierę modeli klasy Mythos dla szerokiej publiczności w najbliższych tygodniach — po opracowaniu odpowiednich zabezpieczeń dla modeli o tak wysokiej inteligencji (projekt Glasswing)
- Dynamic workflows wchodzi jako research preview — Anthropic zbiera feedback przed pełnym wdrożeniem funkcji
- Zapowiadano prace nad modelami o porównywalnych możliwościach co Opus, ale przy niższym koszcie — nie podano harmonogramu
Źródła
- Anthropic — Introducing Claude Opus 4.8
- Anthropic — Claude Opus 4.8 System Card
- Anthropic — Introducing dynamic workflows in Claude Code





