GPT-4.1

gpt-4.1-2025-04-14 · Rodzina: GPT

GPT-4.1 to duży model językowy opracowany przez OpenAI zaprojektowany do zaawansowanego rozumowania, generowania tekstu, programowania oraz pracy z multimodalnymi danymi wejściowymi.

✓ Aktywny✓ Publiczny dostępLLMModel multimodalnyModel używający narzędzi📁 GPT

Okno kontekstowe

1M tokens

tokenów

Parametry

Undisclosed

parametrów

Max output

32 768

tokenów

Data premiery

14 kwietnia 2025

🏢OpenAIProducent

Dostęp:APIHostedWdrożenie:☁ Cloud

Przegląd

GPT-4.1 to model językowy OpenAI wydany 14 kwietnia 2025 roku dostępny wyłącznie przez API (nie w ChatGPT w momencie premiery). Snapshot w API: gpt-4.1-2025-04-14. Zaprojektowany z myślą o deweloperach budujących agentowe systemy kodowania, z naciskiem na podążanie za instrukcjami i pracę z długim kontekstem.

Kluczowe cechy

Okno kontekstowe 1 047 576 tokenów (1M), maksymalna liczba tokenów wyjściowych: 32 768. Graniczna data wiedzy: czerwiec 2024. Wspiera tool use, fine-tuning oraz multimodalność wejściową (tekst, obraz, dokumenty).

Wyniki benchmarków

Na SWE-bench Verified osiąga 54,6% (wynik konserwatywny 52,1%) — poprawa o 21,4 pp. nad GPT-4o (33,2%). Na Aider Polyglot diff uzyskuje 52,9% (2,9× lepiej niż GPT-4o). MMLU 90,2%, MMMU 74,8%, MathVista 72,2%, Video-MME (long) 72,0%. Na teście Needle in Haystack przy kontekście 1M tokenów — 100% precyzji.

Ceny i dostępność

Model zamknięty (closed weights), dostępny przez OpenAI API, Azure AI Foundry oraz inne platformy hosting. Ceny: 2 USD/MTok input, 8 USD/MTok output, cached input 0,50 USD/MTok (75% zniżki). Batch API z 50% rabatem. Brak premii cenowej za długi kontekst do 1M tokenów. Model wycofany z ChatGPT 13.02.2026; nadal dostępny w API.

Bezpieczeństwo

OpenAI nie opublikował osobnego system card (uznany za model niefrontierowy). Niezależne badania (Owain Evans/Oxford, ICML 2025; SplxAI) wykazały wyższe ryzyko misalignment po fine-tuningu na niebezpiecznym kodzie oraz tendencję do literalnego, łatwiejszego do obejścia podążania za instrukcjami. W odpowiedzi OpenAI opublikował dedykowany prompting guide.

Klasyfikacja

LLMModel multimodalnyModel używający narzędzi

Rodzina: GPT

Zastosowania

Kodowanie Analiza dokumentów Chatboty Generowanie treści Analiza danych Streszczanie Tłumaczenie

Dostęp i wdrożenie

APIHostowane

Chmura

Wagi: Zamknięte

Kluczowe parametry

📏 Kontekst: 1M tokens

🧩 Parametry: Undisclosed

✓ Narzędzia · ✓ Fine-tuning

📥 Wejście: tekst, obraz, dane strukturalne, urls…

Specyfikacja techniczna

Okno kontekstowe

1M tokens

tokenów

Parametry

Undisclosed

parametrów

Max output tokens

32 768

tokenów na odpowiedź

Knowledge cutoff

1 cze 2024

Data graniczna wiedzy

Licencja

Proprietary (OpenAI API license)

Wymagania sprzętowe

Model nie jest dostępny do uruchomienia lokalnego. Działa wyłącznie poprzez infrastrukturę OpenAI i dostępny jest przez API.

Funkcje:✓ Używanie narzędzi✓ Fine-tuning

Modalności

⬇ Wejście (Input)

textimagestructured_dataurlsdocuments

⬆ Wyjście (Output)

analytical_reportscodestructured_datasummariestext

Możliwości i zastosowania

Natywne możliwości modelu

Rozumowanie

Zdolność modelu do logicznego wnioskowania i rozwiązywania złożonych problemów.

Kategoria: reasoning

Rozumowanie wieloetapowe

Prowadzenie wieloetapowego toku rozumowania w długich, złożonych zadaniach.

Kategoria: reasoning

Długi kontekst

Utrzymanie spójności i uwagi w bardzo długim kontekście wejściowym.

Kategoria: language

Programowanie

Generowanie, analiza i modyfikacja kodu źródłowego.

Kategoria: coding

Wywoływanie funkcji

Natywne wsparcie dla ustrukturyzowanego wykorzystania narzędzi, umożliwiające przepływy pracy oparte na agentach.

Kategoria: planning

Wyjście strukturyzowane

Generowanie danych w ustrukturyzowanych formatach, np. JSON.

Kategoria: structured_generation

Rozumienie obrazu

Analiza i interpretacja treści obrazów.

Kategoria: vision

Rozumienie wykresów

Odczyt i interpretacja wykresów, tabel i diagramów.

Kategoria: vision

OCR

Rozpoznawanie tekstu na obrazach i w dokumentach.

Kategoria: vision

Wielojęzyczność

Rozumienie i generowanie tekstu w wielu językach.

Kategoria: language

Planowanie

Tworzenie i realizacja planów działania dla złożonych zadań.

Kategoria: planning

Wyjście strumieniowe

Wiadomości strumieniowe umożliwiają pobieranie treści w czasie rzeczywistym, gdy model generuje odpowiedzi, bez czekania na wygenerowanie całej odpowiedzi. Takie podejście może znacząco poprawić doświadczenie użytkownika, zwłaszcza podczas tworzenia długich treści tekstowych, ponieważ użytkownicy mogą od razu zobaczyć, że odpowiedź zaczyna się pojawiać.

Kategoria: reasoning

Dziedziny zastosowań

Kodowanie Analiza dokumentów Chatboty Generowanie treści Analiza danych Streszczanie Tłumaczenie

Wyniki benchmarków

13 benchmarków

MMLU

accuracy · Massive Multitask Language Understanding – wiedza z 57 dziedzin.

90.2%

📅 14 kwi 2025📄 RD World Online / OpenAI (prezentacja premiery)

Wynik podany przez OpenAI podczas launch livestream.

SWE-bench Verified

accuracy · Benchmark rzeczywistych zadań inżynierii oprogramowania z GitHuba. Wyłączono 23/500 zadań niemożliwych do uruchomienia na infrastrukturze OpenAI. Wynik konserwatywny (z infrastrukturą): 52,1%.

54.6%

📅 14 kwi 2025📄 OpenAI – oficjalny blog gpt-4-1 (openai.com/index/gpt-4-1/)

Poprawa o 21,4 pp. nad GPT-4o (33,2%) i 26,6 pp. nad GPT-4.5 (28,0%). Lepszy od o1 i o3-mini na tym benchmarku. Claude 3.7 Sonnet (~62-63%) i Gemini 2.5 Pro (~64%) uzyskały wyższe wyniki.

MultiChallenge

accuracy · Benchmark Scale AI testujący podążanie za instrukcjami w rozmowach wieloturowych (4 kategorie informacji z poprzednich wiadomości).

38.3%

📅 14 kwi 2025📄 OpenAI – oficjalny blog gpt-4-1 / Scale AI

Poprawa o 10,5 pp. nad GPT-4o (27,8%). GPT-4.5 osiągał 43,8% na tym benchmarku.

IFEval

accuracy · Benchmark testujący zgodność z weryfikowalnymi instrukcjami (format, długość, zawartość, unikanie pewnych fraz).

87.4%

📅 14 kwi 2025📄 OpenAI – oficjalny blog gpt-4-1

Poprawa o 6,4 pp. nad GPT-4o (81,0%). GPT-4.5 osiągał 88,2%.

Video-MME (long, no subtitles)

accuracy · Wielokrotny wybór na podstawie 30–60-minutowych filmów wideo bez napisów.

72.0%

📅 14 kwi 2025📄 OpenAI – oficjalny blog gpt-4-1

Wynik state-of-the-art w momencie premiery. Poprawa o 6,7 pp. nad GPT-4o (65,3%).

MMMU

accuracy · Multimodalne rozumowanie akademickie (wykresy, diagramy, mapy, etc.).

74.8%

📅 14 kwi 2025📄 OpenAI – oficjalny blog gpt-4-1

GPT-4o: 68,7%, GPT-4.5: 75,2%. Nieznacznie niższy od GPT-4.5.

MathVista

accuracy · Matematyczne rozumowanie wizualne.

72.2%

📅 14 kwi 2025📄 OpenAI – oficjalny blog gpt-4-1 / Pankaj Rajan / Medium

GPT-4o: 61,4%, GPT-4.5: 72,3%. Zbliżony wynik do GPT-4.5 przy znacznie niższym koszcie.

Aider Polyglot (diff format)

accuracy · Benchmark edycji kodu w formacie diff w wielu językach programowania.

52.9%

📅 14 kwi 2025📄 OpenAI – oficjalny blog gpt-4-1

Ponad 2,9× poprawa nad GPT-4o (18,2%). GPT-4.5: 44,9%, o3-mini-high: 60,4%. Redukcja zbędnych edycji z 9% (GPT-4o) do 2%.

OpenAI-MRCR (2-needle, 128K)

accuracy · Multi-Round Coreference – odszukiwanie 2 ukrytych odpowiedzi w kontekście 128K tokenów. GPT-4o: 31,9%, GPT-4.5: 38,5%.

57.2%

📅 14 kwi 2025📄 OpenAI – oficjalny blog gpt-4-1

OpenAI open-sourcował ten benchmark. Wynik spada z ~84% przy 8K tokenach do ~50% przy 1M tokenach (oficjalnie przyznana degradacja).

Graphwalks (BFS <128K)

accuracy · Multi-hop reasoning w długich kontekstach (breadth-first search). GPT-4o: 41,7%, GPT-4.5: 72,3%, o1-high: 62,0%.

61.7%

📅 14 kwi 2025📄 OpenAI – oficjalny blog gpt-4-1

Poprawa o 19,7 pp. nad GPT-4o. Zbliżony do o1-high, gorszy od GPT-4.5.

Needle in Haystack (1M tokens)

accuracy · Odnajdywanie jednej ukrytej informacji na każdej pozycji okna kontekstowego (do 1M tokenów).

100%

📅 14 kwi 2025📄 OpenAI – oficjalny blog gpt-4-1 / Helicone

100% precyzji we wszystkich pozycjach i wszystkich długościach kontekstu.

OpenAI Internal Instruction Following

accuracy · Wewnętrzny benchmark OpenAI do mierzenia podążania za instrukcjami. GPT-4o: 29%.

49%

📅 14 kwi 2025📄 TechTarget / OpenAI launch event

Poprawa o ~20 pp. nad GPT-4o na wewnętrznym teście instruction following.

SWE-bench Verified (conservative / infrastructure-excluded)

accuracy · Wariant SWE-bench Verified z wyłączeniem 23 zadań niemożliwych do uruchomienia na infrastrukturze OpenAI.

52.1%

📅 14 kwi 2025📄 OpenAI – oficjalny blog gpt-4-1 (przypis [2])

Wynik konserwatywny, potwierdzony przez OpenAI jako alternatywna miara.

Cennik

Wdrożenie i bezpieczeństwo

🔒 Security / Enterprise

✓ Zweryfikowane informacje enterprise

OpenAI publikuje publiczne informacje security i enterprise dla swojej platformy, w tym dla API oraz ofert ChatGPT Enterprise/Business/Edu. Dla GPT-4.1 informacje security mają charakter platformowy, a nie osobnego arkusza bezpieczeństwa konkretnego modelu. Publicznie opisywane są m.in. szyfrowanie danych, kontrola dostępu, zgodność compliance oraz zasady użycia danych klientów do trenowania modeli.

Informacje security dla GPT-4.1 należy traktować jako dotyczące środowiska OpenAI API i produktów enterprise, a nie jako model-specific security spec. W praktyce to poprawne podejście dla katalogu systemów AI.

Aktualizacja: 15 mar 2026↗ Dokumentacja security

Źródła i powiązane strony

15 źródeł

DocsGPT-4.1 model documentationplatform.openai.com RepoOpenAI developer platformplatform.openai.com BlogIntroducing GPT-4.1 in the API – OpenAIopenai.com DocsGPT-4.1 Model – OpenAI API Docsplatform.openai.com DocsCompare models – OpenAI API (GPT-4.1 specs)platform.openai.com DocsGPT-4.1 Prompting Guide – OpenAI Cookbookdevelopers.openai.com DocsOpenAI Pricingplatform.openai.com DocsOpenAI Deprecationsplatform.openai.com BlogRetiring GPT-4o, GPT-4.1, GPT-4.1 mini, and o4-mini in ChatGPT – OpenAIopenai.com WebAnnouncing GPT-4.1 for Azure AI Foundry – Microsoft Azure Blogazure.microsoft.com WebOpenAI ships GPT-4.1 without a safety report – TechCrunchtechcrunch.com WebOpenAI's GPT-4.1 may be less aligned – TechCrunchtechcrunch.com WebGPT-4.1 – Wikipediaen.wikipedia.org RepoOpenAI MRCR – Hugging Face Datasethuggingface.co WebOpenAI Safety Evaluations Hubopenai.com

Przeglądaj powiązane tematy

📁 GPT 🌐 Kodowanie 🌐 Analiza dokumentów 🌐 Chatboty 🌐 Generowanie treści Wszystkie modele llm Wszystkie modele multimodal model