GPT-5.4 od OpenAI już jest. Przełom w agentach AI i natywnym sterowaniu PC

Dzisiaj rano OpenAI oficjalnie udostępniło swój najnowszy model LLM – GPT-5.4 oraz jego potężniejszą, dedykowaną profesjonalistom i skomplikowanym zadaniom wersję GPT-5.4 Pro. To gigantyczny krok w stronę w pełni autonomicznych agentów AI, ponieważ nowy model nie tylko generuje tekst, ale wprowadza natywną obsługę komputera oraz możliwość korygowania logiki maszyny w czasie rzeczywistym, jeszcze w trakcie jej "myślenia".

Najważniejsze w skrócie

Natywne sterowanie komputerem: Model potrafi samodzielnie nawigować po środowiskach desktopowych, analizować to, co widzi na ekranie, oraz korzystać z myszy i klawiatury, osiągając rewelacyjny wynik 75% w branżowym teście OSWorld-Verified.
Tryb "Thinking" z możliwością interwencji: Przełom w UX – użytkownik widzi plan działania AI i może zmienić jego kierunek w trakcie generowania odpowiedzi, bez konieczności rozpoczynania procesu od zera.
Koniec z pakowaniem promptów: Nowy system Tool Search pobiera definicje narzędzi dynamicznie, tylko wtedy, gdy są potrzebne, co obniża zużycie tokenów nawet o 47%.
Zaskakująca polityka cenowa: O ile standardowy GPT-5.4 jest znacznie tańszy od konkurencji, wersja Pro wymaga potężnego budżetu – aż 30 USD za 1 milion tokenów wejściowych.

Koniec ery chatbotów. Czas na niezależną egzekucję zadań

Przez ostatnie lata branża technologiczna obiecywała nam asystentów zdolnych do samodzielnego załatwiania naszych spraw w internecie. Próby sprzętowe, takie jak kontrowersyjny Rabbit R1 czy Humane AI Pin, często kończyły się rozczarowaniem ze względu na zawodność systemów. Zamiast budować nowy sprzęt, firma Sama Altmana postanowiła zintegrować agenta z najpotężniejszym dotąd fundamentem oprogramowania.

GPT-5.4 to pierwszy model ogólnego przeznaczenia tej firmy z natywnymi zdolnościami Computer-Use. Sztuczna inteligencja potrafi napisać kod (np. z wykorzystaniem biblioteki Playwright), by sterować przeglądarką, ale potrafi też nawigować po wirtualnym pulpicie analizując zrzuty ekranu, po czym samodzielnie symulować kliknięcia i wprowadzanie danych z klawiatury. W benchmarku WebArena-Verified, weryfikującym zadania w środowisku przeglądarkowym, model zanotował 67,3% skuteczności przy wykorzystaniu interakcji DOM i zrzutów ekranu, drastycznie deklasując poprzednika (GPT-5.2 osiągał tu 65,4%, ale w dużo węższym zakresie operacyjnym).

Wgląd w "umysł" maszyny: Korekta w locie

Zupełnie nowym paradygmatem interakcji jest wprowadzony w ChatGPT tryb GPT-5.4 Thinking. Zamiast czekać na gotowy blok tekstu, użytkownicy otrzymują wstępny, przejrzysty plan działania. Jest to widoczna forma techniki chain-of-thought, gdzie model pokazuje, jak zamierza rozwiązać problem. Jeśli AI zmierza w złym kierunku, użytkownik może dokonać tzw. mid-course correction – skorygować proces w locie. To oszczędza czas, redukuje frustrację przy złożonych zadaniach programistycznych i badawczych (szczególnie w głębokim researchu internetowym).

Firma udostępniła również nowe, rygorystyczne testy bezpieczeństwa oceniające łańcuchy rozumowania. Okazało się, że transparentne "myślenie na głos" zmniejsza ryzyko tzw. ukrywania intencji przez AI, co jest kluczowe w dyskusjach nad bezpieczeństwem modeli granicznych.

Surowe dane i dominacja w benchmarkach

Analizując statystyki dostarczone przez twórców i firmy trzecie, widać, że wyścig zbrojeń nie zwalnia, a wręcz przyspiesza. OpenAI ewidentnie odzyskuje prowadzenie, rzucając wyzwanie rywalom takim jak Opus 4.6 od Anthropic czy Gemini 3.1 Pro od Google.

W prestiżowym teście abstrakcyjnego rozpoznawania wzorców ARC-AGI-2, wariant GPT-5.4 Pro uzyskał 83,3%, wyraźnie dystansując Gemini 3.1 Pro (77,1%) oraz standardowego GPT-5.4 (73,3%). Z kolei Claude Opus 4.6 uzyskał w tym zestawieniu zaledwie 68,8%.

Prawdziwa przepaść pojawia się jednak w zastosowaniach profesjonalnych:

Analiza prawna: Na teście BigLaw Bench (oceniającym pracę prawników) model uzyskał 91% skuteczności.
Finanse i arkusze: W wewnętrznych testach odwzorowujących pracę młodszego analityka bankowości inwestycyjnej (modelowanie arkuszy), nowy model osiąga 87,3% skuteczności.
Generowanie prezentacji: Ludzcy weryfikatorzy w 68% przypadków woleli slajdy wygenerowane przez 5.4 niż przez 5.2, chwaląc lepszą estetykę i dobór obrazów.
Programowanie: Na teście SWE-Bench Pro model osiągnął 57,7%, nieznacznie wyprzedzając wysoce wyspecjalizowany model Codex (56,8%).

Wizja w niespotykanej rozdzielczości

Aby efektywnie obsługiwać interfejsy komputerowe, model musi doskonale widzieć. GPT-5.4 wprowadza poziom detali original, który pozwala na analizę obrazów o rozdzielczości do 10,24 megapikseli (lub do 6000 pikseli na dłuższym boku) bez utraty wierności. Przekłada się to na świetne wyniki w teście OmniDocBench (oceniającym rozumienie skomplikowanych dokumentów wizualnych), gdzie wskaźnik błędów spadł z 0.140 do 0.109.

Milion tokenów kontekstu i nowe wyzwania

Podobnie jak główni konkurenci, nowe modele oferują monstrualne okno kontekstowe o wielkości 1 miliona tokenów. Nie jest to jednak funkcja pozbawiona wad. Twórcy zastrzegają, że w standardowym wariancie jest to funkcja eksperymentalna, włączana opcjonalnie. Niezależne analizy wskazują, że przy "wypychaniu" kontekstu do maksimum, czas oczekiwania na pierwszy token może wynieść nawet dwie minuty.

Co więcej, użytkownicy dyskutujący na serwisach takich jak Hacker News czy [podejrzany link usunięto], szybko zweryfikowali optymistyczne zapowiedzi. Choć model radzi sobie świetnie z inżynierią odwrotną dużych repozytoriów, w przypadku pełnego miliona tokenów często pojawia się znany w inżynierii LLM problem gubienia informacji w środku promptu (tzw. lost in the middle).

Rozwiązaniem problemu zasychania zasobów obliczeniowych na gigantyczne prompty systemowe ma być nowa funkcja Tool Search. Zamiast na starcie ładować wszystkie możliwe wtyczki i definicje do kontekstu, model sam wyszukuje potrzebne narzędzia w locie. To inżynieryjne mistrzostwo pozwala w intensywnych procesach zredukować pobór tokenów prawie o połowę przy zachowaniu pełnej precyzji.

Aspekt finansowy: Efektywność kontra astronomiczne ceny

Cennik ukazuje agresywną strategię rynkową OpenAI. Standardowy GPT-5.4 jest niezwykle konkurencyjny: 2,50 USD za milion tokenów wejściowych i 15 USD za wyjściowe. To wyraźnie taniej niż Claude Opus 4.6 (5 USD / 25 USD). Biorąc pod uwagę lepszą architekturę i wyższą skuteczność zadań na pojedynczym prompcie, realne koszty operacyjne dla firm znacząco spadną.

Sytuacja drastycznie zmienia się w przypadku GPT-5.4 Pro. Za najwyższą moc trzeba zapłacić stawkę premium: 30 USD za milion tokenów wejściowych i aż 150 USD za milion wyjściowych. Dodatkowo warto zaznaczyć, że przy wysyłaniu jednorazowo ponad 272 000 tokenów, stawki w standardowym modelu mnożone są przez 2 (dla inputu) i 1,5 (dla outputu), co ma zniechęcać do nieoptymalnego zaśmiecania okna kontekstowego.

Dlaczego to ważne?

Wypuszczenie na rynek modeli z linii GPT-5.4 to krytyczny moment, w którym branża ostatecznie przechodzi od fazy generowania ładnie brzmiących tekstów do fazy niezawodnej egzekucji fizycznych działań w środowisku cyfrowym. Zdolność do natywnego sterowania komputerem ("Computer-Use") bezpośrednio weryfikuje dawne obietnice o "agentach AI". To już nie jest doradca w bocznym panelu ekranu; to wirtualny pracownik, który potrafi przejąć kontrolę nad myszką, przeklikać się przez trudny interfejs księgowy, wyciągnąć dane i samodzielnie sformatować raport.

Takie podejście drastycznie uderza w klasyczne mechanizmy Robotic Process Automation. Tradycyjne RPA wymagało sztywnego programowania makr i reguł. Kiedy zmieniał się interfejs aplikacji, skrypt ulegał awarii. Model AI ze świetnym widzeniem maszynowym adaptuje się do zmian wizualnych dokładnie tak, jak człowiek.

Ponadto, debiut funkcji korekty w trakcie wnioskowania ("mid-course correction") zwiastuje głęboką Digital Transformation w firmach. Dostajemy system "szklanej skrzynki" (glass-box), w którym użytkownik ma pełną kontrolę nad procesem decyzyjnym maszyny, co jest absolutnie kluczowe dla zaufania w branżach regulowanych, takich jak prawo, finanse i medycyna. OpenAI skutecznie skomercjalizowało precyzję i autonomię.

Co dalej?

Renesans testowania oprogramowania: Eksperymentalny skill "Playwright (Interactive)" udostępniony w Codexie pozwoli na całkowicie zautomatyzowane wizualne testowanie aplikacji webowych jeszcze w trakcie ich budowy.
Nowy wymiar bezpieczeństwa IT: Modele biegłe w nawigowaniu po stronach i w wierszu poleceń staną się potężną bronią zarówno dla zespołów Red Team (ofensywnych), jak i Blue Team (defensywnych), redefiniując koncepcję cyberbezpieczeństwa.
Integracja z korporacyjnymi ekosystemami: Czekamy na odpowiedź Microsoftu, integrację nowego modelu z Copilotem na poziomie samego jądra Windowsa, oraz na ruchy Google zważywszy na presję wywieraną na linię Gemini.

Źródła: Heise online, OpenAI, TechCrunch, The Verge, The New Stack.