Robocikowo>ROBOCIKOWO
Claude Opus 4.7

Claude Opus 4.7

4.7 · Rodzina: Claude
Najbardziej zaawansowany ogólnodostępny model językowy zoptymalizowany pod kątem agentycznego kodowania, długoterminowych zadań autonomicznych i rozumowania obrazów.
✓ Aktywny✓ Publiczny dostępLLMModel multimodalnyModel rozumowaniaModel używający narzędzi📁 Claude
Okno kontekstowe
1M
tokenów
Max output
128 000
tokenów
Data premiery
16 kwietnia 2026
Dostęp:APIHostedWdrożenie:☁ Cloud

Przegląd

Claude Opus 4.7 to najbardziej zaawansowany ogólnodostępny model językowy firmy Anthropic, udostępniony 16 kwietnia 2026 r. Jest bezpośrednim następcą modelu Claude Opus 4.6 (wydanego w lutym 2026 r.) i należy do rodziny modeli Claude 4. Identyfikator modelu w API to claude-opus-4-7. Według Anthropic model jest mniej wszechstronny niż zastrzeżony Claude Mythos Preview, jednak pozostaje najsilniejszym powszechnie dostępnym modelem w ofercie firmy.

Kluczowe ulepszenia względem Opus 4.6

Opus 4.7 przynosi istotne usprawnienia w czterech obszarach. W zakresie agentycznego kodowania model uzyskał 87,6% na SWE-bench Verified (poprzednio 80,8%) i 64,3% na SWE-bench Pro (poprzednio 53,4%), ustanawiając nowy standard wśród publicznie dostępnych modeli. W obszarze wizji jest to pierwszy model Claude obsługujący obrazy o wysokiej rozdzielczości — do 2576 pikseli na dłuższym boku (~3,75 MP), wobec poprzedniego limitu 1568 px / 1,15 MP. Współrzędne obrazów odwzorowują się teraz 1:1 na rzeczywiste piksele, co upraszcza pracę w trybie computer use.

Wprowadzono nowy poziom wysiłku xhigh (extra high) — pomiędzy high a max — pozwalający na dokładniejszą kontrolę kompromisu między głębokością rozumowania a opóźnieniem odpowiedzi. W publicznej wersji beta dostępne są budżety zadań (task budgets): mechanizm umożliwiający developerom ustawienie przybliżonego limitu tokenów na cały cykl agentyczny, z widocznym dla modelu licznikiem odliczającym.

Model istotnie poprawia dosłowność stosowania się do instrukcji — interpretuje polecenia literalnie, a nie swobodnie, co wymaga dostosowania promptów zoptymalizowanych pod Opus 4.6. Opus 4.7 weryfikuje własne wyniki przed udzieleniem odpowiedzi, lepiej korzysta z pamięci opartej na systemie plików i skuteczniej realizuje długotrwałe zadania wielosesyjne. Adaptacyjne myślenie (adaptive thinking) jest obsługiwane i stanowi jedyny tryb włączonego myślenia — stałe budżety myślenia (extended thinking budgets) zostały usunięte.

Zmiany w API i zabezpieczenia cyberbezpieczeństwa

Opus 4.7 wprowadza przełomowe zmiany w Messages API: (1) ustawienie stałego budżetu myślenia przez budget_tokens powoduje błąd 400; (2) ustawienie niestandardowej wartości temperature, top_p lub top_k powoduje błąd 400; (3) treść myślenia jest domyślnie pomijana w odpowiedzi. Nowy tokenizer może produkować do 35% więcej tokenów dla tego samego tekstu wejściowego w porównaniu z Opus 4.6. Opus 4.7 jest pierwszym modelem Claude, na którym Anthropic testuje automatyczne zabezpieczenia cyberbezpieczeństwa przed ewentualnym szerszym udostępnieniem modeli klasy Mythos. Specjaliści ds. bezpieczeństwa realizujący legalne zadania (testy penetracyjne, red-teaming, badania podatności) mogą ubiegać się o dostęp przez program Cyber Verification Program.

Bezpieczeństwo i dopasowanie modelu

Ocena zgodności Anthropic wykazała, że Opus 4.7 jest „w dużej mierze dobrze dopasowany i godny zaufania, choć nie w pełni idealny w swoim zachowaniu". Model wykazuje podobny profil bezpieczeństwa jak Opus 4.6, z poprawą w zakresie uczciwości i odporności na ataki typu prompt injection. Odnotowano niewielką regresję w jednym obszarze: model może udzielać nadmiernie szczegółowych porad dotyczących redukcji szkód przy substancjach kontrolowanych. Pełna ocena bezpieczeństwa opublikowana jest w karcie systemowej Claude Opus 4.7 (232 strony, opublikowanej 16 kwietnia 2026 r.).

Klasyfikacja
LLMModel multimodalnyModel rozumowaniaModel używający narzędzi
Rodzina: Claude
Dostęp i wdrożenie
APIHostowane
Chmura
Wagi: Zamknięte
Kluczowe parametry
📏 Kontekst: 1M
Narzędzia
📥 Wejście: tekst, obraz, dokumenty

Specyfikacja techniczna

Okno kontekstowe
1M
tokenów
Max output tokens
128 000
tokenów na odpowiedź
Knowledge cutoff
31 sty 2026
Data graniczna wiedzy
Licencja
Komercyjna (zastrzeżona, model zamknięty)
Wymagania sprzętowe
Model zamknięty, dostępny wyłącznie przez API. Brak możliwości lokalnego wdrożenia. Dostępny przez: Claude API (Anthropic), Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry.
Funkcje:Używanie narzędzi
Modalności
⬇ Wejście (Input)
textimagedocuments
⬆ Wyjście (Output)
textcodestructured_data

Możliwości i zastosowania

Natywne możliwości modelu
Rozumowanie
Zdolność modelu do logicznego wnioskowania i rozwiązywania złożonych problemów.
Kategoria: reasoning
Rozumowanie wieloetapowe
Prowadzenie wieloetapowego toku rozumowania w długich, złożonych zadaniach.
Kategoria: reasoning
Długi kontekst
Utrzymanie spójności i uwagi w bardzo długim kontekście wejściowym.
Kategoria: language
Programowanie
Generowanie, analiza i modyfikacja kodu źródłowego.
Kategoria: coding
Wywoływanie funkcji
Natywne wsparcie dla ustrukturyzowanego wykorzystania narzędzi, umożliwiające przepływy pracy oparte na agentach.
Kategoria: planning
Wyjście strukturyzowane
Generowanie danych w ustrukturyzowanych formatach, np. JSON.
Kategoria: structured_generation
Rozumienie obrazu
Analiza i interpretacja treści obrazów.
Kategoria: vision
Rozumienie wykresów
Odczyt i interpretacja wykresów, tabel i diagramów.
Kategoria: vision
OCR
Rozpoznawanie tekstu na obrazach i w dokumentach.
Kategoria: vision
Wielojęzyczność
Rozumienie i generowanie tekstu w wielu językach.
Kategoria: language
Planowanie
Tworzenie i realizacja planów działania dla złożonych zadań.
Kategoria: planning
Wyjście strumieniowe
Wiadomości strumieniowe umożliwiają pobieranie treści w czasie rzeczywistym, gdy model generuje odpowiedzi, bez czekania na wygenerowanie całej odpowiedzi. Takie podejście może znacząco poprawić doświadczenie użytkownika, zwłaszcza podczas tworzenia długich treści tekstowych, ponieważ użytkownicy mogą od razu zobaczyć, że odpowiedź zaczyna się pojawiać.
Kategoria: reasoning

Wyniki benchmarków

19 benchmarków
SWE-bench Verified
pass@1 · Zweryfikowany przez ludzi podzbiór 500 rzeczywistych zgłoszeń GitHub rozwiązywanych kompleksowo; zastosowano ekrany memorizacji
87.6%
📅 16 kwi 2026📄 Anthropic — oficjalne ogłoszenie i karta systemowa, 16 kwietnia 2026
Wzrost z 80,8% (Opus 4.6). Margines poprawy utrzymuje się po wykluczeniu elementów zidentyfikowanych jako potencjalnie zapamiętane.
SWE-bench Pro
pass@1 · Wielojęzyczny benchmark inżynierii oprogramowania; trudniejszy i mniej zanieczyszczony niż SWE-bench Verified
64.3%
📅 16 kwi 2026📄 Anthropic — oficjalne ogłoszenie i karta systemowa, 16 kwietnia 2026
Wzrost z 53,4% (Opus 4.6). Wyprzedza GPT-5.4 (57,7%) i Gemini 3.1 Pro (54,2%) wśród publicznie dostępnych modeli.
SWE-bench Multilingual
pass@1
80.5%
📅 16 kwi 2026📄 Anthropic — karta systemowa, 16 kwietnia 2026
Wzrost z 77,8% (Opus 4.6). Do obu modeli zastosowano wewnętrzną implementację.
Terminal-Bench 2.0
pass@1 · Środowisko Terminus-2, myślenie wyłączone; alokacja zasobów 1× gwarantowana / 3× sufit, uśredniona z 5 prób na zadanie
69.4%
📅 16 kwi 2026📄 Anthropic — oficjalne ogłoszenie i karta systemowa, 16 kwietnia 2026
Wzrost z 65,4% (Opus 4.6). GPT-5.4 samoreportuje 75,1% w oparciu o własne środowisko testowe — wynik nie jest bezpośrednio porównywalny.
GPQA Diamond
accuracy · Benchmark wiedzy naukowej na poziomie doktoranckim
94.2%
📅 16 kwi 2026📄 Anthropic — oficjalne ogłoszenie i karta systemowa, 16 kwietnia 2026
Wzrost z 91,3% (Opus 4.6). Porównywalny z GPT-5.4 Pro (94,4%) i Gemini 3.1 Pro (94,3%); benchmark bliski saturacji na poziomie frontier.
Humanity's Last Exam (bez narzędzi)
accuracy · Wielodyscyplinarny benchmark akademicki bez dostępu do narzędzi
46.9%
📅 16 kwi 2026📄 Anthropic — karta systemowa, 16 kwietnia 2026
Humanity's Last Exam (z narzędziami)
accuracy · Wielodyscyplinarny benchmark akademicki z dostępem do narzędzi
54.7%
📅 16 kwi 2026📄 Anthropic — karta systemowa, 16 kwietnia 2026
Wyprzedza Gemini 3.1 Pro (51,4%).
MCP-Atlas
accuracy · Wieloetapowy, wielokrokowy benchmark skalowanego użycia narzędzi od Scale AI
77.3%
📅 16 kwi 2026📄 Anthropic / Scale AI — oficjalne ogłoszenie i karta systemowa, 16 kwietnia 2026
Wzrost z 75,8% (Opus 4.6; wynik zaktualizowany po zmianie metodologii oceniania Scale AI). Najlepszy wynik wśród publicznie dostępnych modeli — wyprzedza GPT-5.4 (68,1%) i Gemini 3.1 Pro (73,9%).
OSWorld-Verified
accuracy · Benchmark agentycznego sterowania interfejsem graficznym (computer use)
78.0%
📅 16 kwi 2026📄 Anthropic — oficjalne ogłoszenie i karta systemowa, 16 kwietnia 2026
Wzrost z 72,7% (Opus 4.6). Wyprzedza GPT-5.4 (75,0%); 1,6 pkt poniżej Mythos Preview (79,6%).
Finance Agent v1.1
accuracy · Benchmark wieloetapowej analizy finansowej obejmujący modelowanie finansowe i tworzenie prezentacji
64.4%
📅 16 kwi 2026📄 Anthropic — oficjalne ogłoszenie i karta systemowa, 16 kwietnia 2026
Wzrost z 60,7% (Opus 4.6). Najlepszy wynik wśród porównywanych modeli w dniu premiery.
CharXiv Reasoning (bez narzędzi)
accuracy · Rozumowanie wizualne na wykresach i ilustracjach arXiv bez użycia narzędzi
82.1%
📅 16 kwi 2026📄 Anthropic — karta systemowa, 16 kwietnia 2026
Wzrost z ok. 68,7–69,1% (Opus 4.6). Największy skok w kategorii rozumowania wizualnego.
CharXiv Reasoning (z narzędziami)
accuracy · Rozumowanie wizualne na wykresach i ilustracjach arXiv z użyciem narzędzi
91.0%
📅 16 kwi 2026📄 Anthropic — oficjalne ogłoszenie i karta systemowa, 16 kwietnia 2026
Wzrost z 84,7% (Opus 4.6).
BrowseComp
accuracy · Benchmark agentycznego przeszukiwania sieci
79.3%
📅 16 kwi 2026📄 Anthropic — oficjalne ogłoszenie i karta systemowa, 16 kwietnia 2026
Spadek z ok. 84,0% (Opus 4.6, mierzony w konfiguracji wieloagentowej przy maksymalnym wysiłku). GPT-5.4 Pro osiąga 89,3%; Gemini 3.1 Pro — 85,9%. Obszar regresji.
CyberGym
accuracy · Benchmark odtwarzania podatności cyberbezpieczeństwa
73.1%
📅 16 kwi 2026📄 Anthropic — oficjalne ogłoszenie i karta systemowa, 16 kwietnia 2026
Praktycznie bez zmian względem Opus 4.6 (zaktualizowany wynik 73,8%) — celowa decyzja treningowa polegająca na różnicowym ograniczeniu zdolności cybernetycznych. Mythos Preview osiąga 83,1%.
MMMLU (wielojęzyczne Q&A)
accuracy · Wielojęzyczny Massive Multitask Language Understanding
91.5%
📅 16 kwi 2026📄 Anthropic — karta systemowa, 16 kwietnia 2026
Gemini 3.1 Pro osiąga ok. 92,6% — nieznaczna przewaga konkurenta.
GDPVal-AA (praca merytoryczna)
Wynik Elo · Benchmark oparty na systemie Elo mierzący wartość ekonomiczną pracy merytorycznej w obszarach finansów i prawa
1753Elo
📅 16 kwi 2026📄 Anthropic — oficjalne ogłoszenie i karta systemowa, 16 kwietnia 2026
Wyprzedza GPT-5.4 (1 674) i Gemini 3.1 Pro (1 314).
OfficeQA Pro (Databricks)
accuracy · Benchmark pytań i odpowiedzi na danych przedsiębiorstwa
80.6%
📅 16 kwi 2026📄 Anthropic — karta systemowa / recenzja Decrypt, 16 kwietnia 2026
Wzrost z 57,1% (Opus 4.6). Wyprzedza GPT-5.4 (51,1%) i Gemini 3.1 Pro (42,9%).
CursorBench
pass@1 · Benchmark autonomicznego kodowania w edytorze Cursor
70%
📅 16 kwi 2026📄 Cursor / oficjalne ogłoszenie Anthropic, 16 kwietnia 2026
Wzrost z 58% (Opus 4.6). Najlepszy wynik wśród ocenianych modeli w dniu premiery.
BigLaw Bench (Harvey)
accuracy · Benchmark prawny na zadaniach BigLaw; tryb wysokiego wysiłku (high effort)
90.9%
📅 16 kwi 2026📄 Harvey / oficjalne ogłoszenie Anthropic, 16 kwietnia 2026
Zgłoszony przez Harvey w ramach ewaluacji partnera wczesnego dostępu.

Cennik

Wdrożenie i bezpieczeństwo

🔒 Security / Enterprise
✓ Zweryfikowane informacje enterprise

Claude Opus 4.7 jest pierwszym modelem Claude wyposażonym w automatyczne zabezpieczenia cyberbezpieczeństwa w czasie rzeczywistym, wykrywające i blokujące żądania wskazujące na zakazane lub wysokiego ryzyka zastosowania cybernetyczne (inicjatywa Project Glasswing). Na platformie Amazon Bedrock obowiązuje zasada zerowego dostępu operatora — prompty i odpowiedzi klientów nie są widoczne dla pracowników Anthropic ani AWS. Opcje rezydencji danych dostępne przez parametr inference_geo w Claude API (mnożnik 1,1× dla wnioskowania wyłącznie w USA). Regionalne i wieloregionalne punkty końcowe Google Vertex AI i Amazon Bedrock są dostępne za dopłatą 10% względem globalnych punktów końcowych. Informacje o zabezpieczeniach i zgodności dla przedsiębiorstw: trust.anthropic.com.

Specjaliści ds. bezpieczeństwa realizujący legalne zadania (testy penetracyjne, red-teaming, badania podatności) mogą ubiegać się o dostęp przez Cyber Verification Program Anthropic. Pełna ocena bezpieczeństwa opublikowana jest w karcie systemowej Claude Opus 4.7 (232 strony, 16 kwietnia 2026 r.). Ocena zgodności stwierdziła, że model jest „w dużej mierze dobrze dopasowany i godny zaufania, choć nie w pełni idealny".
Aktualizacja: 16 kwi 2026↗ Dokumentacja security