OpenAI o3

Reasoning model OpenAI wydany 16 kwietnia 2025 r. z pełnym dostępem do narzędzi w ChatGPT, zdolnością myślenia obrazami i oknem kontekstu 200K. Zastąpiony przez GPT-5.

✓ Aktywny✓ Publiczny dostępModel rozumowaniaModel multimodalnyLLM📁 OpenAI o-series

Okno kontekstowe

200K

tokenów

Max output

100 000

tokenów

Data premiery

16 kwietnia 2025

🏢OpenAIProducent

Dostęp:APIHostedWdrożenie:☁ Cloud

Przegląd

OpenAI o3 to model rozumujący z serii o, opublikowany 16 kwietnia 2025 r. razem z o4-mini. Jako pierwszy w rodzinie o-series otrzymał pełny agentowy dostęp do wszystkich narzędzi w ChatGPT — wyszukiwania w sieci, interpretera Pythona, generowania obrazów oraz analizy plików — i został wytrenowany przez reinforcement learning do decydowania, kiedy i jak ich używać. Model wprowadził też "thinking with images": obrazy stają się częścią łańcucha rozumowania i mogą być przekształcane (obrót, zoom) w trakcie analizy. W API o3 ma okno kontekstu 200 000 tokenów, maksymalną odpowiedź 100 000 tokenów oraz knowledge cutoff 1 czerwca 2024. Identyfikator API to o3 (snapshot o3-2025-04-16). Cennik: 2 USD za 1M tokenów wejściowych (0,50 USD cached) i 8 USD za 1M tokenów wyjściowych. Model został zastąpiony przez GPT-5, ale pozostaje dostępny w API. W czerwcu 2025 r. wydano także wariant OpenAI o3-pro.

Klasyfikacja

Model rozumowaniaModel multimodalnyLLM

Rodzina: OpenAI o-series

Dostęp i wdrożenie

APIHostowane

Chmura

Wagi: Zamknięte

Kluczowe parametry

📏 Kontekst: 200K

✓ Narzędzia

📥 Wejście: tekst, obraz

Platformy

OpenAI API Microsoft Azure AI Foundry

Specyfikacja techniczna

Okno kontekstowe

200K

tokenów

Max output tokens

100 000

tokenów na odpowiedź

Knowledge cutoff

1 cze 2024

Data graniczna wiedzy

Funkcje:✓ Używanie narzędzi

Modalności

⬇ Wejście (Input)

textimage

⬆ Wyjście (Output)

textcode

Możliwości i zastosowania

Natywne możliwości modelu

Rozumowanie

Zdolność modelu do logicznego wnioskowania i rozwiązywania złożonych problemów.

Kategoria: reasoning

Rozumowanie wieloetapowe

Prowadzenie wieloetapowego toku rozumowania w długich, złożonych zadaniach.

Kategoria: reasoning

Programowanie

Generowanie, analizowanie i modyfikowanie kodu w wielu językach programowania. Obejmuje pisanie funkcji, debugowanie, refaktoryzację, code review, tworzenie testów. Mierzone benchmarkami takimi jak HumanEval, SWE-bench.

Kategoria: coding

Długi kontekst

Obsługa dużych okien kontekstowych — dziesiątek do setek tysięcy (lub milionów) tokenów wejścia. Umożliwia analizę całych baz kodu, długich dokumentów, wielu równolegle rozmów bez utraty wcześniejszych informacji. GPT-5.1 wspiera 400 000 tokenów.

Kategoria: language

Wielojęzyczność

Kompetencje w wielu językach naturalnych (od kilku do stu+): rozumienie, generowanie, tłumaczenie, code-switching w obrębie jednej rozmowy. Modele frontier obsługują szeroki wachlarz języków ze zbliżoną jakością.

Kategoria: language

Rozumienie obrazu

Analiza i interpretacja treści obrazów.

Kategoria: vision

Rozumienie multimodalne

Zdolność modelu do łączenia i interpretowania informacji z więcej niż jednej modalności, np. tekstu i obrazu.

Kategoria: multimodal

Wywoływanie funkcji

Natywne wsparcie dla ustrukturyzowanego wykorzystania narzędzi, umożliwiające przepływy pracy oparte na agentach.

Kategoria: planning

Równoległe wywołania narzędzi

Zdolność do jednoczesnego wywoływania wielu narzędzi zewnętrznych w trakcie generowania odpowiedzi.

Kategoria: reasoning

Planowanie

Tworzenie i realizacja planów działania dla złożonych zadań.

Kategoria: planning

Zdolności agentowe

Zdolność modelu do autonomicznego planowania i wykonywania wieloetapowych zadań poprzez sekwencyjne użycie narzędzi, utrzymywanie kontekstu i adaptację do wyników pośrednich.

Kategoria: planning

Obsługa komputera

Zdolność modelu do obsługi interfejsu komputera poprzez interpretację zrzutów ekranu oraz generowanie akcji takich jak kliknięcia, wpisywanie tekstu i nawigacja po aplikacjach.

Kategoria: planning

Wyjście strukturyzowane

Generowanie danych w ustrukturyzowanych formatach, np. JSON.

Kategoria: structured_generation

Wyniki benchmarków

6 benchmarków

Codeforces

ELO rating · High reasoning effort, with tools

2727points