GPT-4.1 to duży model językowy opracowany przez OpenAI zaprojektowany do zaawansowanego rozumowania, generowania tekstu, programowania oraz pracy z multimodalnymi danymi wejściowymi.
Okno kontekstowe
1M tokens
tokenów
Parametry
Undisclosed
parametrów
Max output
32 768
tokenów
Data premiery
14 kwietnia 2025
Dostęp:APIHostedWdrożenie:☁ Cloud
Przegląd
Zastosowania
Dostęp i wdrożenie
APIHostowane
Chmura
Wagi: Zamknięte
Kluczowe parametry
📏 Kontekst: 1M tokens
🧩 Parametry: Undisclosed
✓ Narzędzia · ✓ Fine-tuning
📥 Wejście: tekst, obraz, dane strukturalne, urls…
Specyfikacja techniczna
Okno kontekstowe
1M tokens
tokenów
Parametry
Undisclosed
parametrów
Max output tokens
32 768
tokenów na odpowiedź
Knowledge cutoff
1 cze 2024
Data graniczna wiedzy
Licencja
Proprietary (OpenAI API license)
Wymagania sprzętowe
Model nie jest dostępny do uruchomienia lokalnego.
Działa wyłącznie poprzez infrastrukturę OpenAI i dostępny jest przez API.
Funkcje:✓ Używanie narzędzi✓ Fine-tuning
Modalności
⬇ Wejście (Input)
textimagestructured_dataurlsdocuments
⬆ Wyjście (Output)
analytical_reportscodestructured_datasummariestext
Możliwości i zastosowania
Natywne możliwości modelu
Rozumowanie
Zdolność modelu do logicznego wnioskowania, analizowania zależności i wyprowadzania odpowiedzi na podstawie przesłanek.
Kategoria: reasoning
Rozumowanie wieloetapowe
Zdolność modelu do rozwiązywania problemów wymagających kilku kolejnych kroków rozumowania.
Kategoria: reasoning
Długi kontekst
Zdolność modelu do pracy na długim kontekście i utrzymywania spójności przy dużej ilości danych wejściowych.
Kategoria: reasoning
Kodowanie
Zdolność modelu do generowania, analizowania, poprawiania i wyjaśniania kodu.
Kategoria: coding
Wywoływanie funkcji
Natywne wsparcie dla ustrukturyzowanego wykorzystania narzędzi, umożliwiające przepływy pracy oparte na agentach.
Kategoria: planning
Wyjście ustrukturyzowane
Zdolność modelu do generowania odpowiedzi w uporządkowanej formie, np. JSON, list, tabel lub schematów.
Kategoria: structured_generation
Rozumienie obrazów
Zdolność modelu do analizowania i interpretowania zawartości obrazów.
Kategoria: vision
Rozumienie wykresów
Zdolność modelu do rozumienia wykresów, trendów, osi, legend i danych wizualnych.
Kategoria: vision
OCR
Zdolność modelu do odczytywania i interpretowania tekstu znajdującego się na obrazach lub skanach.
Kategoria: vision
Wielojęzyczność
Zdolność modelu do rozumienia i generowania treści w wielu językach.
Kategoria: language
Planowanie
Zdolność modelu do układania planów, sekwencji działań i uporządkowanych kroków rozwiązania.
Kategoria: planning
Wyjście strumieniowe
Wiadomości strumieniowe umożliwiają pobieranie treści w czasie rzeczywistym, gdy model generuje odpowiedzi, bez czekania na wygenerowanie całej odpowiedzi. Takie podejście może znacząco poprawić doświadczenie użytkownika, zwłaszcza podczas tworzenia długich treści tekstowych, ponieważ użytkownicy mogą od razu zobaczyć, że odpowiedź zaczyna się pojawiać.
Kategoria: reasoning
Wyniki benchmarków
13 benchmarków
MMLU
accuracy · Massive Multitask Language Understanding – wiedza z 57 dziedzin.
90.2%
📅 14 kwi 2025📄 RD World Online / OpenAI (prezentacja premiery)
Wynik podany przez OpenAI podczas launch livestream.
SWE-bench Verified
accuracy · Benchmark rzeczywistych zadań inżynierii oprogramowania z GitHuba. Wyłączono 23/500 zadań niemożliwych do uruchomienia na infrastrukturze OpenAI. Wynik konserwatywny (z infrastrukturą): 52,1%.
54.6%
📅 14 kwi 2025📄 OpenAI – oficjalny blog gpt-4-1 (openai.com/index/gpt-4-1/)
Poprawa o 21,4 pp. nad GPT-4o (33,2%) i 26,6 pp. nad GPT-4.5 (28,0%). Lepszy od o1 i o3-mini na tym benchmarku. Claude 3.7 Sonnet (~62-63%) i Gemini 2.5 Pro (~64%) uzyskały wyższe wyniki.
MultiChallenge
accuracy · Benchmark Scale AI testujący podążanie za instrukcjami w rozmowach wieloturowych (4 kategorie informacji z poprzednich wiadomości).
38.3%
📅 14 kwi 2025📄 OpenAI – oficjalny blog gpt-4-1 / Scale AI
Poprawa o 10,5 pp. nad GPT-4o (27,8%). GPT-4.5 osiągał 43,8% na tym benchmarku.
IFEval
accuracy · Benchmark testujący zgodność z weryfikowalnymi instrukcjami (format, długość, zawartość, unikanie pewnych fraz).
87.4%
📅 14 kwi 2025📄 OpenAI – oficjalny blog gpt-4-1
Poprawa o 6,4 pp. nad GPT-4o (81,0%). GPT-4.5 osiągał 88,2%.
Video-MME (long, no subtitles)
accuracy · Wielokrotny wybór na podstawie 30–60-minutowych filmów wideo bez napisów.
72.0%
📅 14 kwi 2025📄 OpenAI – oficjalny blog gpt-4-1
Wynik state-of-the-art w momencie premiery. Poprawa o 6,7 pp. nad GPT-4o (65,3%).
MMMU
accuracy · Multimodalne rozumowanie akademickie (wykresy, diagramy, mapy, etc.).
74.8%
📅 14 kwi 2025📄 OpenAI – oficjalny blog gpt-4-1
GPT-4o: 68,7%, GPT-4.5: 75,2%. Nieznacznie niższy od GPT-4.5.
MathVista
accuracy · Matematyczne rozumowanie wizualne.
72.2%
📅 14 kwi 2025📄 OpenAI – oficjalny blog gpt-4-1 / Pankaj Rajan / Medium
GPT-4o: 61,4%, GPT-4.5: 72,3%. Zbliżony wynik do GPT-4.5 przy znacznie niższym koszcie.
Aider Polyglot (diff format)
accuracy · Benchmark edycji kodu w formacie diff w wielu językach programowania.
52.9%
📅 14 kwi 2025📄 OpenAI – oficjalny blog gpt-4-1
Ponad 2,9× poprawa nad GPT-4o (18,2%). GPT-4.5: 44,9%, o3-mini-high: 60,4%. Redukcja zbędnych edycji z 9% (GPT-4o) do 2%.
OpenAI-MRCR (2-needle, 128K)
accuracy · Multi-Round Coreference – odszukiwanie 2 ukrytych odpowiedzi w kontekście 128K tokenów. GPT-4o: 31,9%, GPT-4.5: 38,5%.
57.2%
📅 14 kwi 2025📄 OpenAI – oficjalny blog gpt-4-1
OpenAI open-sourcował ten benchmark. Wynik spada z ~84% przy 8K tokenach do ~50% przy 1M tokenach (oficjalnie przyznana degradacja).
Graphwalks (BFS <128K)
accuracy · Multi-hop reasoning w długich kontekstach (breadth-first search). GPT-4o: 41,7%, GPT-4.5: 72,3%, o1-high: 62,0%.
61.7%
📅 14 kwi 2025📄 OpenAI – oficjalny blog gpt-4-1
Poprawa o 19,7 pp. nad GPT-4o. Zbliżony do o1-high, gorszy od GPT-4.5.
Needle in Haystack (1M tokens)
accuracy · Odnajdywanie jednej ukrytej informacji na każdej pozycji okna kontekstowego (do 1M tokenów).
100%
📅 14 kwi 2025📄 OpenAI – oficjalny blog gpt-4-1 / Helicone
100% precyzji we wszystkich pozycjach i wszystkich długościach kontekstu.
OpenAI Internal Instruction Following
accuracy · Wewnętrzny benchmark OpenAI do mierzenia podążania za instrukcjami. GPT-4o: 29%.
49%
📅 14 kwi 2025📄 TechTarget / OpenAI launch event
Poprawa o ~20 pp. nad GPT-4o na wewnętrznym teście instruction following.
SWE-bench Verified (conservative / infrastructure-excluded)
accuracy · Wariant SWE-bench Verified z wyłączeniem 23 zadań niemożliwych do uruchomienia na infrastrukturze OpenAI.
52.1%
📅 14 kwi 2025📄 OpenAI – oficjalny blog gpt-4-1 (przypis [2])
Wynik konserwatywny, potwierdzony przez OpenAI jako alternatywna miara.
Cennik
Wdrożenie i bezpieczeństwo
🔒 Security / Enterprise
✓ Zweryfikowane informacje enterprise
OpenAI publikuje publiczne informacje security i enterprise dla swojej platformy, w tym dla API oraz ofert ChatGPT Enterprise/Business/Edu. Dla GPT-4.1 informacje security mają charakter platformowy, a nie osobnego arkusza bezpieczeństwa konkretnego modelu. Publicznie opisywane są m.in. szyfrowanie danych, kontrola dostępu, zgodność compliance oraz zasady użycia danych klientów do trenowania modeli.
Informacje security dla GPT-4.1 należy traktować jako dotyczące środowiska OpenAI API i produktów enterprise, a nie jako model-specific security spec. W praktyce to poprawne podejście dla katalogu systemów AI.
Aktualizacja: 15 mar 2026↗ Dokumentacja security
Źródła i powiązane strony
15 źródeł
DocsGPT-4.1 model documentationRepoOpenAI developer platformBlogIntroducing GPT-4.1 in the API – OpenAIDocsGPT-4.1 Model – OpenAI API DocsDocsCompare models – OpenAI API (GPT-4.1 specs)DocsGPT-4.1 Prompting Guide – OpenAI CookbookDocsOpenAI PricingDocsOpenAI DeprecationsBlogRetiring GPT-4o, GPT-4.1, GPT-4.1 mini, and o4-mini in ChatGPT – OpenAIWebAnnouncing GPT-4.1 for Azure AI Foundry – Microsoft Azure BlogWebOpenAI ships GPT-4.1 without a safety report – TechCrunchWebOpenAI's GPT-4.1 may be less aligned – TechCrunchWebGPT-4.1 – WikipediaRepoOpenAI MRCR – Hugging Face DatasetWebOpenAI Safety Evaluations Hub
