Claude Opus 4.6 vs Claude Opus 4.7 — co się zmieniło i czy warto migrować?

Claude Opus 4.7 to kolejna wersja flagowego modelu językowego firmy Anthropic, wydana 16 kwietnia 2026 roku, niespełna trzy miesiące po debiucie Claude Opus 4.6. Oba modele należą do tej samej rodziny produktów — są modelami językowymi (ang. large language model, LLM) przeznaczonymi dla programistów, firm i użytkowników wymagających zaawansowanych możliwości w kodowaniu, pracy z dokumentami i wieloetapowych zadaniach autonomicznych. Warto rozumieć różnicę między nimi, bo mimo identycznego cennika rzeczywiste koszty i zachowanie modelu w produkcji mogą się wyraźnie różnić.

Najważniejsze w skrócie:

Opus 4.7 to bezpośredni następca Opus 4.6 — ceny pozostają takie same (5 USD za milion tokenów wejściowych, 25 USD za milion tokenów wyjściowych), ale rzeczywiste koszty mogą wzrosnąć z powodu zmienionego tokenizera.
Rozdzielczość obsługiwanych obrazów wzrosła z 1568 px do 2576 px — ponad trzykrotny wzrost liczby pikseli.
SWE-bench Verified — ocena kodu produkcyjnego — wzrósł z 80,8% do 87,6%, a SWE-bench Pro z 53,4% do 64,3%.
Model używa nowego tokenizera, który może zużywać do 35% więcej tokenów na tym samym wejściu.
Usunięto obsługę rozszerzonych budżetów myślenia (budget_tokens) — wywołanie ze starą konfiguracją zwróci błąd 400.

Czym są Claude Opus 4.6 i Claude Opus 4.7?

Obydwa modele to duże modele językowe firmy Anthropic — komercyjne systemy AI dostępne przez API, interfejs claude.ai oraz platformy chmurowe (Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry). Nie są to platformy ani frameworki — to same modele, które stanowią rdzeń usługi. Ich wspólnym zadaniem jest obsługa złożonych zapytań tekstowych i wizualnych, prowadzenie wieloetapowych rozumowań, wykonywanie zadań autonomicznych (ang. agentic tasks) oraz współpraca z zewnętrznymi narzędziami przez protokół MCP (Model Context Protocol).

Claude Opus 4.6 wyznaczył punkt odniesienia w lutym 2026 roku, wprowadzając zaawansowane mechanizmy planowania podzadań, równoległe wywoływanie narzędzi i agentów podrzędnych oraz utrzymanie skupienia na dużych bazach kodu przez długi czas. Opus 4.7 buduje na tym fundamencie, wprowadzając kilka istotnych zmian — zarówno funkcjonalnych, jak i architektonicznych.

Jak działa Claude Opus 4.7 inaczej niż 4.6?

Nowy tokenizer i zmiana logiki myślenia

Tokenizer to element modelu odpowiedzialny za zamianę tekstu na liczbowe reprezentacje (tokeny), które model przetwarza. Opus 4.7 używa nowego tokenizera, który może zużywać od 1,0 do 1,35 raza więcej tokenów w porównaniu z poprzednim modelem, w zależności od rodzaju treści. W praktyce oznacza to, że ten sam prompt może kosztować więcej, nawet jeśli stawka za token się nie zmieniła.

Zmienił się też mechanizm myślenia: tryb adaptive thinking zastąpił stary system extended thinking z parametrem budget_tokens. Ustawienie thinking: {"type": "adaptive"} to jedyny obsługiwany tryb z włączonym myśleniem — stare wywołania ze starą składnią zwracają błąd.

Zbliżone do tego podejście stosuje OpenAI w modelach z serii o1/o3 — tam też budżet myślenia jest zarządzany wewnętrznie, a nie przez użytkownika. Opus 4.7 idzie w podobnym kierunku, choć zachowuje możliwość sterowania głębokością rozumowania przez parametr effort.

Nowy poziom wysiłku: xhigh

Opus 4.7 wprowadza nowy poziom intensywności pracy xhigh (extra high), umieszczony między dotychczasowymi high i max. Daje to programistom dokładniejszą kontrolę nad kompromisem między głębokością rozumowania a szybkością odpowiedzi.

Na każdym poziomie wysiłku Opus 4.7 wyprzedza odpowiednik z Opus 4.6. Nowy poziom xhigh przy 100 tys. tokenach osiąga wynik 71%, podczas gdy maksymalny poziom Opus 4.6 przy 200 tys. tokenach dawał wynik niższy.

Obsługa obrazów w wysokiej rozdzielczości

Opus 4.7 to pierwszy model Claude obsługujący obrazy w wysokiej rozdzielczości. Maksymalna rozdzielczość wzrosła do 2576 px / 3,75 MP (poprzednio limit wynosił 1568 px / 1,15 MP). Zmiana ta ma szczególne znaczenie dla pracy z narzędziem computer use, analizą zrzutów ekranu i rozumieniem dokumentów.

Praktyczny efekt widać na benchmarku XBOW Visual Acuity: wynik wzrósł z 54,5% przy Opus 4.6 do 98,5% przy Opus 4.7. Oznacza to, że model jest teraz w stanie precyzyjnie odczytywać drobne elementy UI, identyfikować wartości w wykresach i ekstrakcjonować dane z gęsto zadrukowanych dokumentów.

Precyzyjniejsze wykonywanie poleceń

Tam gdzie Opus 4.6 interpretował polecenia luźno i czasem pomijał kroki lub uogólniał instrukcje, Opus 4.7 podchodzi do nich dosłownie. Przewodnik migracyjny Anthropic wyraźnie to zaznacza: „Opus 4.7 respektuje poziomy wysiłku ściśle, zwłaszcza na niskim końcu."

To zmiana istotna dla użytkowników, którzy budowali prompty zakładające, że model będzie „domyślał się" intencji. Prompty pisane dla Opus 4.6, które opierały się na luźnej interpretacji lub tendencji modelu do pomijania pewnych instrukcji, mogą teraz dawać inne wyniki.

Pamięć robocza i praca na dokumentach

Databricks odnotował 21% mniej błędów niż przy Opus 4.6 podczas pracy ze źródłowymi informacjami na benchmarku OfficeQA Pro. Dokumentacja Anthropic wskazuje na poprawę w zadaniach wymagających wielokrotnego odwoływania się do dużych zestawów dokumentów i utrzymywania spójności kontekstu przez długie sesje autonomiczne.

Gdzie Opus 4.7 nie dominuje

Wyniki nie są jednostronnie lepsze. Na benchmarku Terminal-Bench 2.0, który testuje biegłość w wierszu poleceń i zadaniach DevOps, GPT-5.4 osiąga 75,1%, podczas gdy Opus 4.7 — 69,4%. BrowseComp, oceniający nawigację po stronach internetowych, również nieco się obniżył względem Opus 4.6.

Czym różni się od innych rozwiązań?

Na rynku dostępnych jest kilka modeli konkurencyjnych pozycjonowanych w podobnym segmencie:

GPT-5.4 od OpenAI to bezpośredni rywal w zadaniach kodowania. Na SWE-bench Verified Opus 4.7 osiąga 87,6% przy GPT-5.4 z wynikiem 80,6%. Z kolei na Terminal-Bench GPT-5.4 prowadzi. To sugeruje, że modele mają różne obszary specjalizacji i wybór między nimi powinien zależeć od konkretnego rodzaju zadań.

Gemini 3.1 Pro od Google również pozostaje za Opus 4.7 na większości ocen kodowania. Na SWE-bench Verified Opus 4.7 jest przed Gemini 3.1 Pro (80,6%).

Kluczowa różnica techniczna między Opus 4.7 a konkurentami polega na tym, że Anthropic zdecydował się testować nowe zabezpieczenia dotyczące cyberbezpieczeństwa właśnie na tym modelu przed wdrożeniem ich w bardziej zaawansowanym Claude Mythos. To oznacza, że Opus 4.7 ma wbudowane automatyczne filtry blokujące pewne zapytania związane z bezpieczeństwem cybernetycznym — ograniczenie, które nie dotyczy np. GPT-5.4 w standardowej konfiguracji.

Najważniejsze ograniczenia i wyzwania

Koszt rzeczywisty a koszt nominalny. Cena za token się nie zmieniła, ale nowy tokenizer może generować do 35% więcej tokenów na tym samym wejściu. Żądanie, które przy Opus 4.6 kosztowało 0,10 USD, może kosztować od 0,10 do 0,135 USD przy Opus 4.7, zależnie od rodzaju treści.
Zrywające zmiany API. Ustawienie thinking: {"type": "enabled", "budget_tokens": N} zwróci błąd 400. Parametry temperature, top_p i top_k ustawione na wartości inne niż domyślne również zwracają błąd. Migracja wymaga więc nie tylko zamiany identyfikatora modelu, ale przeglądu logiki wywołań.
Zmiana w zachowaniu promptów. Prompty zbudowane na założeniu, że model będzie interpretował je elastycznie, mogą dawać węższe lub inne wyniki. To wymaga przetestowania na reprezentatywnym zbiorze danych przed przełączeniem ruchu produkcyjnego.
Zabezpieczenia cyberbezpieczeństwa. Model zawiera nowe automatyczne zabezpieczenia wykrywające i blokujące żądania związane z zakazanymi lub wysokiego ryzyka tematami cyberbezpieczeństwa. Specjaliści ds. bezpieczeństwa mogą ubiegać się o dostęp przez program Cyber Verification Program.
Opus 4.7 to nie Mythos. Claude Mythos Preview — model niedostępny publicznie — wyprzedza Opus 4.7 na większości benchmarków: SWE-bench Pro (77,8% vs 64,3%), SWE-bench Verified (93,9% vs 87,6%), Terminal-Bench (82,0% vs 69.4%).

Dlaczego ta technologia jest istotna?

Przejście od Opus 4.6 do 4.7 ujawnia kilka ważnych tendencji w tym, jak Anthropic buduje i pozycjonuje swoje modele komercyjne.

Po pierwsze, poprawa w obsłudze obrazów jest jakościowa, nie kosmetyczna. Trzykrotny wzrost rozdzielczości otwiera nową klasę zastosowań: agenty operujące na interfejsach graficznych, automatyczne przetwarzanie dokumentów, systemy analizujące zrzuty ekranu w czasie rzeczywistym. Wcześniej te zadania wymagały dedykowanych modeli wizyjnych lub obejść; teraz są dostępne w ramach tego samego API, co praca tekstowa.

Po drugie, zmiana w podejściu do myślenia (przejście z ręcznego budget_tokens na adaptacyjne adaptive thinking) to wyraźny krok w kierunku modelu, który sam decyduje, ile czasu poświęcić na rozumowanie. Może to sugerować, że Anthropic uznaje dotychczasowe sterowanie budżetem za zbyt skomplikowane dla większości użytkowników i dążenie do uproszczenia API przy jednoczesnym zachowaniu jakości wyników.

Po trzecie, sposób, w jaki Anthropic wdrożył nowe zabezpieczenia cyberbezpieczeństwa — najpierw na mniej zdolnym modelu ogólnodostępnym, zanim trafi do Mythos — to interesujący model zarządzania ryzykiem. To można interpretować jako próbę zbudowania zaufania do nowych mechanizmów kontroli przed udostępnieniem ich w modelu o pełnych możliwościach ofensywnych.

Wreszcie, cykl wydawniczy (Opus 4.5 w listopadzie 2025, 4.6 w lutym 2026, 4.7 w kwietniu 2026) wskazuje na tempo, które sprawia, że decyzje o migracji stają się regularnym elementem pracy inżynierów AI. Firmy budujące produkty na modelach Anthropic muszą mieć wypracowane procedury testowania i migracji — nie jako jednorazowe zadanie, ale jako stały element cyklu produkcyjnego.

Podsumowanie

Claude Opus 4.7 to bezpośrednie ulepszenie Opus 4.6 z mierzalnymi zyskami w kodowaniu, percepcji wzrokowej i autonomicznych zadaniach wieloetapowych. Cennik pozostaje niezmieniony, ale nowy tokenizer i głębsze myślenie na wyższych poziomach wysiłku mogą podnieść realne koszty. Migracja wymaga aktualizacji kodu — stare parametry budget_tokens i wartości temperature są już nieobsługiwane. Dla większości zespołów korzystających z modeli Anthropic w kodowaniu lub pracy z obrazami przejście na 4.7 wydaje się uzasadnione, ale warto przetestować kluczowe ścieżki na własnym ruchu przed przełączeniem produkcji.