GPT-5.5

gpt-5.5 · Rodzina: GPT

GPT-5.5 to najnowszy model OpenAI, skoncentrowany na autonomicznym wykonywaniu wieloetapowych zadań z zakresu kodowania, pracy z komputerem i badań naukowych.

✓ Aktywny✓ Publiczny dostępLLMModel multimodalnyModel rozumowaniaModel używający narzędzi📁 GPT

Okno kontekstowe

tokenów

Max output

128 000

tokenów

Data premiery

23 kwietnia 2026

🏢OpenAIProducent

Dostęp:APIHostedWdrożenie:☁ Cloud

Przegląd

Klasyfikacja

LLMModel multimodalnyModel rozumowaniaModel używający narzędzi

Rodzina: GPT

Dostęp i wdrożenie

APIHostowane

Chmura

Wagi: Zamknięte

Kluczowe parametry

📏 Kontekst: 1M

✓ Narzędzia

📥 Wejście: tekst, obraz

Specyfikacja techniczna

Okno kontekstowe

tokenów

Max output tokens

128 000

tokenów na odpowiedź

Knowledge cutoff

1 gru 2025

Data graniczna wiedzy

Funkcje:✓ Używanie narzędzi

Modalności

⬇ Wejście (Input)

textimage

⬆ Wyjście (Output)

textcodestructured_data

Możliwości i zastosowania

Natywne możliwości modelu

Rozumowanie

Zdolność modelu do logicznego wnioskowania i rozwiązywania złożonych problemów.

Kategoria: reasoning

Rozumowanie wieloetapowe

Prowadzenie wieloetapowego toku rozumowania w długich, złożonych zadaniach.

Kategoria: reasoning

Długi kontekst

Obsługa dużych okien kontekstowych — dziesiątek do setek tysięcy (lub milionów) tokenów wejścia. Umożliwia analizę całych baz kodu, długich dokumentów, wielu równolegle rozmów bez utraty wcześniejszych informacji. GPT-5.1 wspiera 400 000 tokenów.

Kategoria: language

Programowanie

Generowanie, analizowanie i modyfikowanie kodu w wielu językach programowania. Obejmuje pisanie funkcji, debugowanie, refaktoryzację, code review, tworzenie testów. Mierzone benchmarkami takimi jak HumanEval, SWE-bench.

Kategoria: coding

Wywoływanie funkcji

Natywne wsparcie dla ustrukturyzowanego wykorzystania narzędzi, umożliwiające przepływy pracy oparte na agentach.

Kategoria: planning

Wyjście strukturyzowane

Generowanie danych w ustrukturyzowanych formatach, np. JSON.

Kategoria: structured_generation

Rozumienie audio

Zdolność modelu do interpretowania dźwięku, mowy, tonów i sygnałów audio.

Kategoria: audio

Rozumienie obrazu

Analiza i interpretacja treści obrazów.

Kategoria: vision

Rozumienie wideo

Zdolność analizy wideo poprzez przetwarzanie sekwencji klatek.

Kategoria: video

Rozumienie wykresów

Odczyt i interpretacja wykresów, tabel i diagramów.

Kategoria: vision

Rozumowanie po diagramach

Zdolność modelu do analizowania diagramów, schematów i relacji przedstawionych wizualnie.

Kategoria: reasoning

OCR

Rozpoznawanie tekstu na obrazach i w dokumentach.

Kategoria: vision

Wielojęzyczność

Kompetencje w wielu językach naturalnych (od kilku do stu+): rozumienie, generowanie, tłumaczenie, code-switching w obrębie jednej rozmowy. Modele frontier obsługują szeroki wachlarz języków ze zbliżoną jakością.

Kategoria: language

Planowanie

Tworzenie i realizacja planów działania dla złożonych zadań.

Kategoria: planning

Wyjście strumieniowe

Wiadomości strumieniowe umożliwiają pobieranie treści w czasie rzeczywistym, gdy model generuje odpowiedzi, bez czekania na wygenerowanie całej odpowiedzi. Takie podejście może znacząco poprawić doświadczenie użytkownika, zwłaszcza podczas tworzenia długich treści tekstowych, ponieważ użytkownicy mogą od razu zobaczyć, że odpowiedź zaczyna się pojawiać.

Kategoria: reasoning

Przeplatane wejście multimodalne

Zdolność do dowolnego łączenia tekstu i obrazu w dowolnej kolejności w ramach jednego polecenia.

Kategoria: reasoning

Rozumienie multimodalne

Zdolność modelu do łączenia i interpretowania informacji z więcej niż jednej modalności, np. tekstu i obrazu.

Kategoria: multimodal

Wyniki benchmarków

20 benchmarków

SWE-Bench Pro (Public)

accuracy · Ewaluacja przeprowadzona z reasoning effort xhigh w środowisku badawczym.

58.6%