SWE-bench Verified
pass@1 · Zweryfikowany przez ludzi podzbiór 500 rzeczywistych zgłoszeń GitHub rozwiązywanych kompleksowo; zastosowano ekrany memorizacji
87.6%
📅 16 kwi 2026📄 Anthropic — oficjalne ogłoszenie i karta systemowa, 16 kwietnia 2026
Wzrost z 80,8% (Opus 4.6). Margines poprawy utrzymuje się po wykluczeniu elementów zidentyfikowanych jako potencjalnie zapamiętane.
SWE-bench Pro
pass@1 · Wielojęzyczny benchmark inżynierii oprogramowania; trudniejszy i mniej zanieczyszczony niż SWE-bench Verified
64.3%
📅 16 kwi 2026📄 Anthropic — oficjalne ogłoszenie i karta systemowa, 16 kwietnia 2026
Wzrost z 53,4% (Opus 4.6). Wyprzedza GPT-5.4 (57,7%) i Gemini 3.1 Pro (54,2%) wśród publicznie dostępnych modeli.
SWE-bench Multilingual
pass@1
80.5%
📅 16 kwi 2026📄 Anthropic — karta systemowa, 16 kwietnia 2026
Wzrost z 77,8% (Opus 4.6). Do obu modeli zastosowano wewnętrzną implementację.
Terminal-Bench 2.0
pass@1 · Środowisko Terminus-2, myślenie wyłączone; alokacja zasobów 1× gwarantowana / 3× sufit, uśredniona z 5 prób na zadanie
69.4%
📅 16 kwi 2026📄 Anthropic — oficjalne ogłoszenie i karta systemowa, 16 kwietnia 2026
Wzrost z 65,4% (Opus 4.6). GPT-5.4 samoreportuje 75,1% w oparciu o własne środowisko testowe — wynik nie jest bezpośrednio porównywalny.
GPQA Diamond
accuracy · Benchmark wiedzy naukowej na poziomie doktoranckim
94.2%
📅 16 kwi 2026📄 Anthropic — oficjalne ogłoszenie i karta systemowa, 16 kwietnia 2026
Wzrost z 91,3% (Opus 4.6). Porównywalny z GPT-5.4 Pro (94,4%) i Gemini 3.1 Pro (94,3%); benchmark bliski saturacji na poziomie frontier.
Humanity's Last Exam (bez narzędzi)
accuracy · Wielodyscyplinarny benchmark akademicki bez dostępu do narzędzi
46.9%
📅 16 kwi 2026📄 Anthropic — karta systemowa, 16 kwietnia 2026
Humanity's Last Exam (z narzędziami)
accuracy · Wielodyscyplinarny benchmark akademicki z dostępem do narzędzi
54.7%
📅 16 kwi 2026📄 Anthropic — karta systemowa, 16 kwietnia 2026
Wyprzedza Gemini 3.1 Pro (51,4%).
MCP-Atlas
accuracy · Wieloetapowy, wielokrokowy benchmark skalowanego użycia narzędzi od Scale AI
77.3%
📅 16 kwi 2026📄 Anthropic / Scale AI — oficjalne ogłoszenie i karta systemowa, 16 kwietnia 2026
Wzrost z 75,8% (Opus 4.6; wynik zaktualizowany po zmianie metodologii oceniania Scale AI). Najlepszy wynik wśród publicznie dostępnych modeli — wyprzedza GPT-5.4 (68,1%) i Gemini 3.1 Pro (73,9%).
OSWorld-Verified
accuracy · Benchmark agentycznego sterowania interfejsem graficznym (computer use)
78.0%
📅 16 kwi 2026📄 Anthropic — oficjalne ogłoszenie i karta systemowa, 16 kwietnia 2026
Wzrost z 72,7% (Opus 4.6). Wyprzedza GPT-5.4 (75,0%); 1,6 pkt poniżej Mythos Preview (79,6%).
Finance Agent v1.1
accuracy · Benchmark wieloetapowej analizy finansowej obejmujący modelowanie finansowe i tworzenie prezentacji
64.4%
📅 16 kwi 2026📄 Anthropic — oficjalne ogłoszenie i karta systemowa, 16 kwietnia 2026
Wzrost z 60,7% (Opus 4.6). Najlepszy wynik wśród porównywanych modeli w dniu premiery.
CharXiv Reasoning (bez narzędzi)
accuracy · Rozumowanie wizualne na wykresach i ilustracjach arXiv bez użycia narzędzi
82.1%
📅 16 kwi 2026📄 Anthropic — karta systemowa, 16 kwietnia 2026
Wzrost z ok. 68,7–69,1% (Opus 4.6). Największy skok w kategorii rozumowania wizualnego.
CharXiv Reasoning (z narzędziami)
accuracy · Rozumowanie wizualne na wykresach i ilustracjach arXiv z użyciem narzędzi
91.0%
📅 16 kwi 2026📄 Anthropic — oficjalne ogłoszenie i karta systemowa, 16 kwietnia 2026
Wzrost z 84,7% (Opus 4.6).
BrowseComp
accuracy · Benchmark agentycznego przeszukiwania sieci
79.3%
📅 16 kwi 2026📄 Anthropic — oficjalne ogłoszenie i karta systemowa, 16 kwietnia 2026
Spadek z ok. 84,0% (Opus 4.6, mierzony w konfiguracji wieloagentowej przy maksymalnym wysiłku). GPT-5.4 Pro osiąga 89,3%; Gemini 3.1 Pro — 85,9%. Obszar regresji.
CyberGym
accuracy · Benchmark odtwarzania podatności cyberbezpieczeństwa
73.1%
📅 16 kwi 2026📄 Anthropic — oficjalne ogłoszenie i karta systemowa, 16 kwietnia 2026
Praktycznie bez zmian względem Opus 4.6 (zaktualizowany wynik 73,8%) — celowa decyzja treningowa polegająca na różnicowym ograniczeniu zdolności cybernetycznych. Mythos Preview osiąga 83,1%.
MMMLU (wielojęzyczne Q&A)
accuracy · Wielojęzyczny Massive Multitask Language Understanding
91.5%
📅 16 kwi 2026📄 Anthropic — karta systemowa, 16 kwietnia 2026
Gemini 3.1 Pro osiąga ok. 92,6% — nieznaczna przewaga konkurenta.
GDPVal-AA (praca merytoryczna)
Wynik Elo · Benchmark oparty na systemie Elo mierzący wartość ekonomiczną pracy merytorycznej w obszarach finansów i prawa
1753Elo
📅 16 kwi 2026📄 Anthropic — oficjalne ogłoszenie i karta systemowa, 16 kwietnia 2026
Wyprzedza GPT-5.4 (1 674) i Gemini 3.1 Pro (1 314).
OfficeQA Pro (Databricks)
accuracy · Benchmark pytań i odpowiedzi na danych przedsiębiorstwa
80.6%
📅 16 kwi 2026📄 Anthropic — karta systemowa / recenzja Decrypt, 16 kwietnia 2026
Wzrost z 57,1% (Opus 4.6). Wyprzedza GPT-5.4 (51,1%) i Gemini 3.1 Pro (42,9%).
CursorBench
pass@1 · Benchmark autonomicznego kodowania w edytorze Cursor
70%
📅 16 kwi 2026📄 Cursor / oficjalne ogłoszenie Anthropic, 16 kwietnia 2026
Wzrost z 58% (Opus 4.6). Najlepszy wynik wśród ocenianych modeli w dniu premiery.
BigLaw Bench (Harvey)
accuracy · Benchmark prawny na zadaniach BigLaw; tryb wysokiego wysiłku (high effort)
90.9%
📅 16 kwi 2026📄 Harvey / oficjalne ogłoszenie Anthropic, 16 kwietnia 2026
Zgłoszony przez Harvey w ramach ewaluacji partnera wczesnego dostępu.