ChatGPT Images 2.0

gpt-image-2 · Rodzina: GPT

Model generowania i edycji obrazów OpenAI z wbudowaną warstwą wnioskowania O-series, obsługą rozdzielczości do 2K, renderacją tekstu niełacińskiego i generowaniem do 8 obrazów z jednego polecenia.

✓ Aktywny✓ Publiczny dostępModel generowania obrazówModel rozumowaniaModel multimodalny📁 GPT

Data premiery

21 kwietnia 2026

🏢OpenAIProducent

Dostęp:APIHostedWdrożenie:☁ Cloud

Przegląd

Podane informacje o ChatGPT Images 2.0 / gpt-image-2 są sprzeczne z moją aktualną wiedzą (mój stan wiedzy kończy się w październiku 2024 roku, a opis dotyczy wydarzeń z 2026 roku). Nie mogę ich więc zweryfikować ani potwierdzić jako fakty.

Mogę natomiast streścić i uporządkować to, co zostało w treści opisane:

Model i dostępność

Nazwa modelu w API: gpt-image-2.
Zastępuje: DALL‑E 2, DALL‑E 3, gpt-image-1.5.
Planowane wycofanie poprzednich modeli: 12 maja 2026.
Dostępny w: ChatGPT (web, mobile, desktop), środowisku Codex oraz przez OpenAI API.
Snapshot produkcyjny: gpt-image-2-2026-04-21.
Alias: chatgpt-image-latest wskazuje na aktualny domyślny model obrazowy.

Architektura i kluczowa nowość

Wbudowana warstwa wnioskowania oparta na rodzinie modeli O-series.
Przed generowaniem model:
analizuje polecenie,
planuje kompozycję i rozkład elementów,
modeluje zależności przestrzenne,
może przeszukać sieć w celu pozyskania aktualnych informacji,
po wygenerowaniu obrazu weryfikuje własny wynik.
Odmienność względem wcześniejszych modeli dyfuzyjnych: wcześniejsze działały reaktywnie, bez jawnego kroku planowania.

Tryby działania

Tryb natychmiastowy (Instant mode):
Dostępny bezpłatnie dla wszystkich użytkowników ChatGPT.
Zapewnia lepszą jakość generowania niż wcześniejsze modele, ale bez etapu wnioskowania.
Tryb wnioskowania (Thinking mode):
Dostępny dla: ChatGPT Plus, Pro, Business, Enterprise.
Funkcje:
przeszukiwanie sieci,
generowanie do 8 spójnych obrazów z jednego polecenia,
weryfikacja wyników.

Parametry techniczne generowania

Rozdzielczości: do 2K, eksperymentalnie powyżej 2560×1440 px.
Proporcje obrazu: od 3:1 do 1:3.
Format wyjściowy: PNG, JPEG, WebP.
Brak obsługi przezroczystego tła w trybie Responses API.

Tekst w obrazach

Znacząco poprawione generowanie tekstu w obrazach.
Obsługa pisma łacińskiego i niełacińskiego (m.in. japoński, koreański, chiński, hindi, bengalski).
Deklarowana dokładność generowania tekstu: ~99%.

Wyniki w Image Arena (arena.ai)

Model uzyskał 1512 punktów Elo w kategorii text-to-image.
Przewaga nad drugim miejscem (Google Gemini 3.1 Flash Image): +242 punkty Elo.
Pozycje w rankingach:
text-to-image: 1512 (1. miejsce),
single-image edit: 1513 (1. miejsce),
multi-image edit: 1464 (1. miejsce).

Cennik API (token-based)

Obrazy wejściowe: 8 USD / 1M tokenów (lub 2 USD / 1M przy cache).
Obrazy wyjściowe: 30 USD / 1M tokenów.
Tekst wejściowy: 5 USD / 1M tokenów.
Tekst wyjściowy: 10 USD / 1M tokenów.
Batch API: 50% rabatu przy przetwarzaniu asynchronicznym do 24 godzin.
Szacunkowy koszt jednego obrazu 1024×1024:
jakość low: ok. 0,006 USD,
jakość medium: ok. 0,053 USD,
jakość high: ok. 0,211 USD.

Ponieważ nie mogę sprawdzić informacji z przyszłości, mogę je jedynie traktować jako opis hipotetyczny lub wstępną specyfikację. Jeśli chcesz, mogę na tej podstawie przygotować np. porównanie z wcześniejszymi modelami, przykładowe prompty, szacunki kosztów dla konkretnych zastosowań albo szkic dokumentacji API.

Klasyfikacja

Model generowania obrazówModel rozumowaniaModel multimodalny

Rodzina: GPT

Zastosowania

Generowanie treści

Dostęp i wdrożenie

APIHostowane

Chmura

Wagi: Zamknięte

Kluczowe parametry

📥 Wejście: tekst, obraz

Platformy

OpenAI API

Specyfikacja techniczna

Knowledge cutoff

31 gru 2025

Data graniczna wiedzy

Licencja

Proprietary / Commercial

Wymagania sprzętowe

Nie dotyczy — model dostępny wyłącznie przez API OpenAI i ChatGPT (chmura zamknięta). Brak możliwości samodzielnego hostingu ani pobierania wag.

Modalności

⬇ Wejście (Input)

textimage

⬆ Wyjście (Output)

image

Możliwości i zastosowania

Natywne możliwości modelu

Rozumowanie

Zdolność modelu do logicznego wnioskowania i rozwiązywania złożonych problemów.

Kategoria: reasoning

Rozumowanie wieloetapowe

Prowadzenie wieloetapowego toku rozumowania w długich, złożonych zadaniach.

Kategoria: reasoning

Wielojęzyczność

Kompetencje w wielu językach naturalnych (od kilku do stu+): rozumienie, generowanie, tłumaczenie, code-switching w obrębie jednej rozmowy. Modele frontier obsługują szeroki wachlarz języków ze zbliżoną jakością.

Kategoria: language

Planowanie

Tworzenie i realizacja planów działania dla złożonych zadań.

Kategoria: planning

Dziedziny zastosowań

Generowanie treści

Wyniki benchmarków

5 benchmarków

Image Arena — Text-to-Image

Elo score · Wynik w trybie medium quality. Przewaga +242 punkty Elo nad modelem nr 2 (Nano Banana 2 / Google Gemini 3.1 Flash Image, wynik 1271). Największa odnotowana przewaga #1 nad #2 w historii platformy Image Arena.

1512punkty Elo

📅 19 kwi 2026📄 Arena.ai / Image Arena leaderboard (crowdsourced, blind human preference voting)

Arena.ai jest niezależną platformą crowdsourcingową — wyniki mogą zmieniać się wraz z napływem nowych głosów. Wynik dotyczy medium quality, nie high quality.

Image Arena — Single-Image Edit

Elo score · Pierwsze miejsce. Przewaga +125 punktów nad modelem nr 2 (Nano Banana Pro).

1513punkty Elo

📅 21 kwi 2026📄 Arena.ai / Image Arena leaderboard

Blind human preference voting. Wynik może ewoluować w czasie.

Image Arena — Multi-Image Edit

Elo score · Pierwsze miejsce. Przewaga +90 punktów nad modelem nr 2 (Nano Banana 2).

1464punkty Elo

📅 21 kwi 2026📄 Arena.ai / Image Arena leaderboard

Blind human preference voting.

Image Arena — Text Rendering (sub-kategoria)

Elo improvement vs GPT-Image-1.5 High Fidelity · Największy przyrost w kategorii text rendering spośród wszystkich sub-kategorii. GPT Image 2 zajął #1 we wszystkich 7 sub-kategoriach Text-to-Image.

+316punkty Elo (poprawa względem poprzednika)

📅 21 kwi 2026📄 Arena.ai / Image Arena category breakdown; raport officechai.com

Dane z przeglądu sub-kategorii Arena przez media. Traktować pomocniczo.

Wewnętrzny benchmark text rendering (OpenAI)

Text accuracy · Zadeklarowana przez OpenAI dokładność renderacji tekstu. Poprzedni model gpt-image-1.5 osiągał 90–95%. Metodologia nie została publicznie ujawniona.

~99%procent

📅 21 kwi 2026📄 OpenAI press release przy premierze 21.04.2026

Deklaracja producenta — nie niezależnie zaudytowana.

Cennik

Architektura techniczna

Forma modelu (Model Form)

NMNative Multimodal

Techniki trenowania (Training Techniques)

RLRLHF ITInstruction Tuning COCoT

Wdrożenie i bezpieczeństwo

☁ Dostępny na platformach

☁OpenAI APIPlatforma

🔒 Security / Enterprise

✓ Zweryfikowane informacje enterprise

Model dostępny wyłącznie przez infrastrukturę chmurową OpenAI (closed weights). Thinking mode i zaawansowane funkcje ograniczone do planów płatnych (Plus, Pro, Business, Enterprise). Dostęp przez API wymaga weryfikacji konta deweloperskiego OpenAI; organizacyjna weryfikacja może być wymagana do pełnego dostępu do modeli GPT Image w API.

Model generuje obrazy z wbudowanym content policy enforcement — zapytania naruszające zasady zwracają błąd 400 (BadRequestError) z informacją content_policy. Treści generowane przez model są oznaczane metadanymi AI (metadata tagging for AI-generated content). Transparent background (PNG z kanałem alfa) nie jest obsługiwany w trybie Responses API tool option — do tego celu należy używać gpt-image-1.5. Dostęp Free tier: tylko standard/instant mode, ograniczona liczba generacji (ok. 2 obrazy/dzień według doniesień testerów). Funkcje streaming, function calling i structured outputs nie są obsługiwane przez gpt-image-2 API (potwierdzone na stronie modelu).

Aktualizacja: 26 kwi 2026↗ Dokumentacja security

Źródła i powiązane strony

12 źródeł

WebIntroducing ChatGPT Images 2.0 — OpenAI official announcementopenai.com DocsGPT Image 2 Model — OpenAI API Docsdevelopers.openai.com DocsImage Generation Guide — OpenAI API (gpt-image-2 parameters, quality, sizes)developers.openai.com DocsOpenAI API Pricing — official token billing rates for gpt-image-2openai.com DocsOpenAI API Changelog — gpt-image-2 release entrydevelopers.openai.com DocsGPT Image Generation Models Prompting Guide — OpenAI Cookbook (resolution constraints, quality tiers)developers.openai.com BlogTechCrunch — ChatGPT Images 2.0 is surprisingly good at generating texttechcrunch.com BlogThe Decoder — ChatGPT Images 2.0 thinks before it generatesthe-decoder.com BlogEngadget — ChatGPT Images 2.0 is better at rendering non-Latin textengadget.com BlogWikipedia — GPT Image (rodzina modeli, architektura autoregresywna)en.wikipedia.org BlogNeurohive — ChatGPT Images 2.0: Image Arena scores, API specs, benchmark breakdownneurohive.io BlogOfficeChai — ChatGPT Images 2.0 Tops Arena With Big Jump Over Nano Banana 2 (sub-kategorie, punktacja)officechai.com

Przeglądaj powiązane tematy

📁 GPT 🌐 Generowanie treści 🧠 Native Multimodal ☁ OpenAI API Wszystkie modele image generation model Wszystkie modele reasoning model