26 kwietnia 2026 · 6 min lekturyOpenAIChatGPT Images 2.0AI image generation

ChatGPT Images 2.0: OpenAI wprowadza warstwę wnioskowania do generowania obrazów

Okładka: ChatGPT Images 2.0: OpenAI wprowadza warstwę wnioskowania do generowania obrazów

OpenAI ogłosiło 21 kwietnia 2026 roku premierę ChatGPT Images 2.0 — nowego modelu generowania grafiki, który po raz pierwszy w ofercie firmy potrafi analizować polecenie przed przystąpieniem do tworzenia obrazu. Nowy model, dostępny w API pod nazwą gpt-image-2, zastępuje starsze modele DALL-E 2 i DALL-E 3, których wycofanie zaplanowano na 12 maja 2026 roku.

Najważniejsze w skrócie

  • 21 kwietnia 2026 — oficjalna premiera modelu gpt-image-2 w ChatGPT, Codex i API
  • Tryb wnioskowania (tzw. Thinking mode) dostępny wyłącznie dla płatnych subskrybentów (Plus, Pro, Business)
  • Obsługa rozdzielczości do 2K, proporcji od 3:1 do 1:3 i generowania do ośmiu obrazów z jednego polecenia
  • Znacząco poprawiona renderacja tekstu, w tym pisma niełacińskiego (japoński, koreański, chiński, hindi, bengalski)
  • DALL-E 2 i DALL-E 3 przestają działać 12 maja 2026 — programiści muszą przepiąć integracje

Model, który planuje zanim narysuje

OpenAI pozycjonuje nowy model jako zmianę z narzędzia do renderowania w to, co firma nazywa „wizualnym partnerem myślowym" — system zdolny do wnioskowania przez złożone zadania wizualne, weryfikowania własnych wyników i generowania do ośmiu spójnych obrazów z jednego polecenia.

Kluczową nowością jest wbudowana warstwa wnioskowania. Dotychczasowe modele działały reaktywnie: polecenie trafiało do modelu i niemal natychmiast powstawał obraz. W trybie Thinking mode model analizuje przestrzenne rozmieszczenie elementów przed renderowaniem, co przekłada się na bardziej spójne kompozycje. Może też przeszukać sieć przed narysowaniem pierwszego piksela i zweryfikować wynik przed jego dostarczeniem użytkownikowi.

OpenAI wyjaśnił, że nowy model ma „zdolności myślenia", dzięki którym może przeszukiwać sieć, tworzyć wiele obrazów z jednego polecenia i sprawdzać własne wyniki — co pozwala Images 2.0 tworzyć materiały marketingowe w różnych rozmiarach oraz wielopanelowe komiksy.

Architektura modelu pozostaje nieujawniona. OpenAI określa go jako „model generalistyczny" lub „GPT dla obrazów", nie precyzując, czy bazuje na architekturze dyfuzyjnej. Szczegółowa budowa systemu nie jest publicznie dostępna.

Dwa tryby, dwa poziomy możliwości

System działa w dwóch konfiguracjach. Tryb natychmiastowy (Instant mode) jest dostępny bezpłatnie dla wszystkich użytkowników ChatGPT — zapewnia poprawioną jakość generowania bez kroku wnioskowania. Tryb wnioskowania, obejmujący przeszukiwanie sieci podczas generowania, wiele wyników jednocześnie i pełny pipeline wnioskowania, dostępny jest dla subskrybentów ChatGPT Plus (20 dol. miesięcznie, ok. 80 zł), Pro (200 dol. miesięcznie, ok. 800 zł) i Business bez dodatkowych opłat.

Model jest dostępny nie tylko w ChatGPT. W środowisku Codex generowanie obrazów działa bezpośrednio w przestrzeni roboczej bez oddzielnego klucza API, co umożliwia tworzenie szkiców interfejsów i prototypów bez zmiany narzędzia.

Renderacja tekstu: zmiana jakościowa

Jedną z trwałych słabości modeli dyfuzyjnych było generowanie czytelnego tekstu — zwłaszcza liter niełacińskich. Jeszcze dwa lata temu nie można było poprosić modelu o stworzenie menu dla meksykańskiej restauracji bez wymyślania nieistniejących potraw. Nowy model ma to zmieniać w praktyczny sposób.

Images 2.0 potrafi postępować zgodnie ze szczegółowymi instrukcjami, precyzyjnie rozmieszczać i łączyć obiekty, zachowywać drobne szczegóły oraz renderować gęste układy. Model ma też ulepszone rozumienie wielojęzyczne — lepiej renderuje tekst niełaciński, taki jak japoński, koreański, chiński, hindi i bengalski.

Model obsługuje proporcje od 3:1 (ultraszerokie) do 1:3 (ultrawysokie), co pokrywa formaty od banerów i slajdów prezentacji po ekrany mobilne. Rozdzielczość sięga 2K w API.

Cennik API i odejście DALL-E

Programiści mogą integrować model z własnymi produktami poprzez API pod nazwą gpt-image-2. OpenAI rozlicza go tokenowo: 8 dol. za milion tokenów obrazów wejściowych i 30 dol. za milion tokenów obrazów wyjściowych. Tokeny tekstowe kosztują odpowiednio 5 dol. (wejście) i 10 dol. (wyjście) za milion.

Warto zaznaczyć, że koszt jednostkowy zależy od rozdzielczości i złożoności polecenia. Przy rozdzielczości 1024×1536 w wysokiej jakości nowy model jest tańszy od poprzednika (0,165 dol. vs 0,20 dol.), ale przy standardowych 1024×1024 w wysokiej jakości jest droższy — 0,211 dol. wobec 0,133 dol. dla GPT Image 1.5.

Z chwilą pojawienia się Images 2.0, OpenAI wycofuje DALL-E 2 i DALL-E 3 z dniem 12 maja 2026 roku. Istniejący kod wywołujący punkty końcowe DALL-E musi zostać przeniesiony do gpt-image-2 przed tą datą. Dostępny jest też alias chatgpt-image-latest, który zawsze wskazuje na domyślny model obrazów.

Kontekst rynkowy: Image Arena i konkurencja

Przed premierą Images 2.0 na liście Image Arena prowadził model Google, a gpt-image-1.5 OpenAI zajmował drugie miejsce. Po premierze 21 kwietnia gpt-image-2 osiągnął wynik 1512 punktów na liście Image Arena — z przewagą 242 punktów nad modelem na drugim miejscu, co według opisu jest największą przewagą odnotowaną na tej liście. Tego rodzaju dane z platform porównawczych należy traktować ostrożnie — są przydatne jako wskaźnik, nie jako ostateczna ocena jakości w konkretnych zastosowaniach.

TechRadar i inne media podkreślają, że Images 2.0 zbliża ChatGPT do mocnych stron Gemini — Google skupił się mocno na łączeniu tekstu, obrazów i kontekstu w jednym systemie. Wcześniej Gemini wypadał lepiej w tym zestawieniu, ale Images 2.0 tę lukę zmniejsza.

Dlaczego to ważne?

Przez lata modele generowania obrazów były narzędziami reaktywnymi: tworzyły wizualizacje na podstawie opisu, ale nie rozumiały jego złożoności. Wbudowanie warstwy wnioskowania do pipeline'u graficznego zmienia ten układ. Model, który przed rysowaniem analizuje przestrzenne zależności między elementami i weryfikuje własny wynik, bliżej przypomina zachowanie modeli językowych niż klasycznych generatorów opartych na dyfuzji.

Ma to praktyczne konsekwencje dla twórców treści, agencji i programistów. Infografiki z czytelnym tekstem, wielopanelowe kompozycje z zachowaną ciągłością postaci czy materiały reklamowe w wielu formatach z jednego polecenia — to zadania, które wcześniej wymagały wielokrotnych prób lub ręcznej obróbki w edytorze graficznym. Jeśli możliwości modelu w tych obszarach potwierdzą się w produkcyjnym użyciu, obniży to próg wejścia dla mniejszych zespołów, które nie dysponują zapleczem graficznym.

Ważną granicą pozostaje jednak sposób dostępu. Pełne możliwości — wnioskowanie, przeszukiwanie sieci, generowanie w partiach — są zarezerwowane dla płatnych planów. Użytkownicy bezpłatni otrzymują ulepszony tryb natychmiastowy, ale bez kroków planowania. To celowa decyzja po stronie podaży obliczeniowej, nie efekt techniczny.

Równolegle OpenAI zamknęło rozdział DALL-E. Wycofanie DALL-E 2 i DALL-E 3 w maju to formalne potwierdzenie, że firma porzuca architekturę dyfuzyjną jako podstawę swoich produktów obrazowych — przynajmniej w ofercie konsumenckiej.

Co dalej?

  • Przed 12 maja 2026 — programiści muszą przenieść istniejące integracje z DALL-E 2 i DALL-E 3 na gpt-image-2, by uniknąć przerwania działania usług
  • Pełny dostęp do API dla deweloperów spoza ChatGPT i Codex spodziewany jest na początku maja 2026
  • Niezależne testy w warunkach produkcyjnych pokażą, czy możliwości modelu dotyczące złożonych layoutów i renderacji tekstu niełacińskiego rzeczywiście spełniają deklarowane parametry

Źródła

Udostępnij ten artykuł

Powiązane artykuły