Flagowy model AI Anthropic (24.11.2025). Pierwszy model przekraczający 80% na SWE-bench Verified (80,9%). Wyróżnia się parametrem effort, extended thinking i odpornością na prompt injection.
Okno kontekstowe
200K
tokenów
Parametry
nieujawnione publicznie
parametrów
Max output
64 000
tokenów
Data premiery
24 listopada 2025
Dostęp:APIHostedWdrożenie:☁ Cloud
Przegląd
Dostęp i wdrożenie
APIHostowane
Chmura
Wagi: Zamknięte
Kluczowe parametry
📏 Kontekst: 200K
🧩 Parametry: nieujawnione publicznie
✓ Narzędzia
📥 Wejście: tekst, obraz, dokumenty
Specyfikacja techniczna
Okno kontekstowe
200K
tokenów
Parametry
nieujawnione publicznie
parametrów
Max output tokens
64 000
tokenów na odpowiedź
Knowledge cutoff
1 maj 2025
Data graniczna wiedzy
Licencja
proprietary
Wymagania sprzętowe
Dostęp przez infrastrukturę Anthropic, AWS Bedrock lub Google Vertex AI. Brak lokalnego uruchomienia i brak otwartych wag.
Funkcje:✓ Używanie narzędzi
Modalności
⬇ Wejście (Input)
textimagedocuments
⬆ Wyjście (Output)
textcodestructured_datasummariesreports
Możliwości i zastosowania
Natywne możliwości modelu
Rozumowanie
Zdolność modelu do logicznego wnioskowania, analizowania zależności i wyprowadzania odpowiedzi na podstawie przesłanek.
Kategoria: reasoning
Rozumowanie wieloetapowe
Zdolność modelu do rozwiązywania problemów wymagających kilku kolejnych kroków rozumowania.
Kategoria: reasoning
Długi kontekst
Zdolność modelu do pracy na długim kontekście i utrzymywania spójności przy dużej ilości danych wejściowych.
Kategoria: reasoning
Kodowanie
Zdolność modelu do generowania, analizowania, poprawiania i wyjaśniania kodu.
Kategoria: coding
Wywoływanie funkcji
Natywne wsparcie dla ustrukturyzowanego wykorzystania narzędzi, umożliwiające przepływy pracy oparte na agentach.
Kategoria: planning
Wyjście ustrukturyzowane
Zdolność modelu do generowania odpowiedzi w uporządkowanej formie, np. JSON, list, tabel lub schematów.
Kategoria: structured_generation
Rozumienie obrazów
Zdolność modelu do analizowania i interpretowania zawartości obrazów.
Kategoria: vision
Rozumienie wykresów
Zdolność modelu do rozumienia wykresów, trendów, osi, legend i danych wizualnych.
Kategoria: vision
OCR
Zdolność modelu do odczytywania i interpretowania tekstu znajdującego się na obrazach lub skanach.
Kategoria: vision
Wielojęzyczność
Zdolność modelu do rozumienia i generowania treści w wielu językach.
Kategoria: language
Planowanie
Zdolność modelu do układania planów, sekwencji działań i uporządkowanych kroków rozwiązania.
Kategoria: planning
Wyjście strumieniowe
Wiadomości strumieniowe umożliwiają pobieranie treści w czasie rzeczywistym, gdy model generuje odpowiedzi, bez czekania na wygenerowanie całej odpowiedzi. Takie podejście może znacząco poprawić doświadczenie użytkownika, zwłaszcza podczas tworzenia długich treści tekstowych, ponieważ użytkownicy mogą od razu zobaczyć, że odpowiedź zaczyna się pojawiać.
Kategoria: reasoning
Dziedziny zastosowań
Wyniki benchmarków
16 benchmarków
SWE-bench Verified
accuracy · Bez thinking budget; domyślny effort (high); uśrednienie z 5 niezależnych prób; poprawione środowisko hostingowe (Terminus-2)
80.9%
📅 24 lis 2025📄 Anthropic – oficjalny blog i system card (claude-opus-4-5)
Pierwszy model AI przekraczający próg 80% na SWE-bench Verified. Wynik wyższy niż GPT-5.1 (76,3%) i Gemini 3 Pro (76,2%).
Terminal-Bench 2.0
accuracy · 128K thinking budget; uśrednienie z 5 prób
59.3%
📅 24 lis 2025📄 Anthropic system card / Vellum AI analysis
Lepszy od Gemini 3 Pro (54,2%) i GPT-5.1 (47,6%). Najwyższy wynik Terminal-Bench Hard (44%) spośród wszystkich modeli w testach Artificial Analysis.
ARC-AGI-2
accuracy
37.6%
📅 24 lis 2025📄 Anthropic system card / Vellum AI
Ponad dwukrotnie lepszy od GPT-5.1 (17,6%); wyższy niż Gemini 3 Pro (31,1%). Znacząca poprawa w abstrakcyjnym rozumowaniu niewerbalnym.
OSWorld
accuracy
66.3%
📅 24 lis 2025📄 Anthropic system card / DataCamp
Trzykrotna poprawa względem Claude 3.5 (22%). Najlepszy wynik Anthropic dla computer use w momencie premiery.
GPQA Diamond
accuracy · Z extended thinking (64K token budget)
87.0%
📅 24 lis 2025📄 Vellum AI / Artificial Analysis
Nieco niższy od Gemini 3 Pro (91,9%) i GPT-5.1 (88,1%). Mocny wynik na poziomie PhD.
Humanity's Last Exam
accuracy · Z web search
43.2%
📅 24 lis 2025📄 Vellum AI
Bez web search: ~30,8%. Gemini 3 Pro osiąga ~37,5% bez narzędzi, ~45,2% z narzędziami.
MMMLU
accuracy
90.8%
📅 24 lis 2025📄 Vellum AI / Anthropic system card
Nieco niższy od Gemini 3 Pro (91,8%) i GPT-5.1 (91,0%). Wyższy niż Claude Sonnet 4.5 (89,1%).
MMMU
accuracy · Z extended thinking
80.7%
📅 24 lis 2025📄 Vellum AI / Anthropic system card
Najniższy wynik w klasie (GPT-5.1: 85,4%, Gemini 3 Pro: 81,0%).
MCP Atlas (scaled tool use)
accuracy
62.3%
📅 24 lis 2025📄 Anthropic system card / DataCamp
Duża przewaga: drugi wynik to Claude Sonnet 4.5 z 43,8%. Benchmark oceniający użycie wielu narzędzi jednocześnie.
SpreadsheetBench
accuracy
64.25%
📅 24 lis 2025📄 Zvi Mowshowitz / LessWrong (dane z system card)
Benchmark oceniający automatyzację arkuszy kalkulacyjnych.
CyberGym
pass@1
50.6%
📅 24 lis 2025📄 Zvi Mowshowitz / LessWrong / AIToolsReview (dane z system card)
1507 zadań z rzeczywistymi podatnościami CVE w projektach open source.
FinanceAgent
accuracy · Wynik zewnętrzny; wewnętrzny: 61,1%
55.2%
📅 24 lis 2025📄 Zvi Mowshowitz / LessWrong (dane z system card)
Benchmark oceniający złożoną analizę finansową.
Vending-Bench 2
final_balance
$4,967.06USD
📅 24 lis 2025📄 Anthropic system card / Vellum AI
23% wzrost względem Sonnet 4.5 ($3 849,74). Gemini 3 Pro prowadzi z $5 478,16. Benchmark długoterminowego planowania strategicznego (rok symulowanego biznesu).
Gray Swan Prompt Injection
attack_success_rate · Tylko silne ataki prompt injection; przeprowadzony przez Gray Swan
4.7%
📅 24 lis 2025📄 Gray Swan (third-party) / Anthropic system card
Najlepszy wynik w branży. Gemini 3 Pro: 12,5%; GPT-5.1: 21,9%. Niższy = lepszy.
AIME 2025
accuracy · Z Python tools
100%
📅 24 lis 2025📄 The Neuron / multiple sources
Wynik 100% przy użyciu narzędzi Python; bez narzędzi wynik nie jest oficjalnie ujawniony przez Anthropic.
LAB-Bench FigQA
accuracy · Baseline; z narzędziami i reasoning: 69,2%
54.9%
📅 24 lis 2025📄 Anthropic system card (via Zvi Mowshowitz)
Benchmark zrozumienia rysunków naukowych.
Cennik
Architektura techniczna
Rdzeń architektury (Core Architecture)
Forma modelu (Model Form)
Techniki trenowania (Training Techniques)
Wdrożenie i bezpieczeństwo
☁ Dostępny na platformach
🔒 Security / Enterprise
✓ Zweryfikowane informacje enterprise
Claude Opus 4.5 korzysta z publicznie opisywanych zabezpieczeń platformowych Anthropic. Informacje security dotyczą przede wszystkim Claude jako produktu, Anthropic API i funkcji enterprise, a nie osobnego security profile wyłącznie dla wersji Opus 4.5.
W praktyce warto traktować security Opus 4.5 jako inherited security from Anthropic platform and enterprise controls.
Aktualizacja: 15 mar 2026↗ Dokumentacja security
Źródła i powiązane strony
11 źródeł
BlogIntroducing Claude Opus 4.5DocsModels overview - Claude API DocsDocsPricing - Claude API DocsDocsComputer use tool - Claude API DocsWebAnthropic Transparency HubRaportClaude Opus 4.5 System Card – AnthropicDocsWhat's new in Claude 4.5 – Claude API DocsWebClaude Opus 4.5 on Vertex AI – Google Cloud BlogWebIntroducing Claude Opus 4.5 in Microsoft Foundry – Azure BlogWebClaude Opus 4.5 now in Amazon Bedrock – AWS BlogWebClaude Opus 4.5 – Azure AI Foundry Model Catalog
