8 kwietnia 2026 · 10 min lekturyGLM-5Zhipu AIlarge language model

GLM-5: duży model językowy zaprojektowany do autonomicznego inżynierowania oprogramowania

Okładka: GLM-5: duży model językowy zaprojektowany do autonomicznego inżynierowania oprogramowania

GLM-5 to otwartoźródłowy duży model językowy piątej generacji opracowany przez chińską firmę Zhipu AI (działającą pod marką Z.ai). Model należy do kategorii dużych modeli językowych (LLM) klasy frontier — czyli zbliżonych możliwościami do wiodących systemów zamkniętych. Wyróżnia się na tle konkurencji agentycznym charakterem projektu: nie jest to narzędzie do odpowiadania na pytania, lecz system zdolny do samodzielnego planowania i wykonywania wieloetapowych zadań programistycznych.

Najważniejsze w skrócie

  • GLM-5 to model otwartoźródłowy (licencja MIT) o architekturze Mixture-of-Experts z 744 mld parametrów całkowitych i 40 mld aktywnych podczas inferencji.
  • Przeznaczony do zadań agentycznych — nie do prostej generacji tekstu, lecz do autonomicznego rozwiązywania złożonych problemów inżynieryjnych.
  • Wytrenowany wyłącznie na chińskim sprzęcie — procesorach Huawei Ascend, bez udziału kart NVIDIA.
  • Dostępny bezpłatnie jako open-source na Hugging Face (zai-org/GLM-5) oraz przez API Z.ai w cenie ok. 1 USD (ok. 4 zł) za milion tokenów wejściowych.
  • Wyniki benchmarkowe plasują go jako lidera wśród modeli otwartoźródłowych w kategoriach kodowania i agentyczności — wynik 77,8% na SWE-bench Verified, 75,9 na BrowseComp z zarządzaniem kontekstem.
  • Nie jest to platforma ani framework — to konkretny model fundacyjny udostępniany w formie wag i przez API.

Czym jest GLM-5?

GLM-5 to duży model językowy piątej generacji z serii General Language Model, opracowanej przez Zhipu AI we współpracy z Uniwersytetem Tsinghua. Premiera odbyła się 11 lutego 2026 roku, tuż przed chińskim Nowym Rokiem. Model jest klasyfikowany jako fundacyjny LLM klasy frontier, co oznacza, że w testach porównawczych rywalizuje z wiodącymi systemami zamkniętymi — GPT-5.2 czy Claude Opus 4.5.

Podstawową ideą projektu jest przejście od tego, co autorzy określają mianem vibe coding — czyli prostego promowania modelu, żeby generował kod — do agentic engineering, gdzie model samodzielnie planuje, implementuje i iteruje przez wiele kroków, działając jak autonomiczny inżynier oprogramowania. To nie jest jedynie zmiana marketingowa: architektura systemu treningowego i logika wnioskowania zostały podporządkowane właśnie temu celowi.

Kto za nim stoi?

Zhipu AI, działająca dziś pod marką Z.ai, to chiński startup wywodzący się z Uniwersytetu Tsinghua. W styczniu 2026 roku firma weszła na giełdę w Hongkongu jako pierwsza na świecie publicznie notowana firma fundacyjnych modeli AI — pozyskując w IPO ok. 558 mln USD (ok. 2,2 mld zł) przy wycenie rzędu 7,1 mld USD (ok. 28 mld zł). Akcje spółki wzrosły po premierze GLM-5 o ok. 28–34% w ciągu jednego dnia notowań.

Model jest opisany w oficjalnym raporcie technicznym opublikowanym na arXiv przez zespół GLM-5. Kod, wagi modelu oraz dodatkowe informacje dostępne są w repozytorium GitHub pod adresem github.com/zai-org/GLM-5. Zhipu AI od 2025 roku figuruje na amerykańskiej liście podmiotów objętych ograniczeniami eksportowymi (Entity List), co nadaje szczególne znaczenie strategicznej decyzji o trenowaniu modelu wyłącznie na krajowym sprzęcie.

Jak działa GLM-5?

Architektura GLM-5 opiera się na kilku kluczowych rozwiązaniach technicznych, które odróżniają go od poprzedników i wielu konkurentów.

Mixture-of-Experts

Model wykorzystuje architekturę Mixture-of-Experts (MoE): spośród 744 mld parametrów podczas każdego wywołania aktywne jest tylko ok. 40 mld. Działa to na zasadzie sieci „ekspertów" — w zależności od rodzaju zadania uruchamiane są tylko te fragmenty modelu, które są dla niego istotne. To sprawia, że pomimo ogromnej całkowitej pojemności koszty obliczeniowe inferencji pozostają stosunkowo niskie.

DeepSeek Sparse Attention (DSA)

Kluczową innowacją architektoniczną jest zastąpienie standardowego mechanizmu uwagi (attention) rozwiązaniem DeepSeek Sparse Attention. W klasycznym podejściu koszt obliczeniowy rośnie kwadratowo wraz z długością kontekstu — im dłuższy tekst, tym wykładniczo droższe obliczenia. DSA dynamicznie wybiera te fragmenty kontekstu, które są faktycznie istotne dla danego tokenu, redukując liczbę obliczeń o 1,5–2× dla długich sekwencji. Dzięki temu GLM-5 obsługuje okno kontekstowe do 200 000 tokenów (dla porównania: standardowy kontekst to zwykle 4 000–32 000 tokenów) przy niższym koszcie GPU. Rozwiązanie pochodzi pierwotnie z ekosystemu DeepSeek, skąd Zhipu zaadoptowało je do własnej architektury.

Proces treningu

Trening GLM-5 przebiegał w kilku etapach. Pretrenowanie obejmowało 28,5 biliona tokenów — z celowym naciskiem na kod i dane matematyczne. Następnie model przechodził mid-training, podczas którego stopniowo rozszerzano okno kontekstowe: od 4 000 do 200 000 tokenów. Etap post-trainingu wykraczał poza standardowe dostrajanie nadzorowane (SFT) i obejmował sekwencyjne uczenie przez wzmacnianie: najpierw RL dla rozumowania, następnie RL agentyczny, na końcu ogólne RL dla wyrównania z preferencjami użytkownika.

Asynchroniczny RL i framework Slime

Jedną z kluczowych innowacji jest asynchroniczna infrastruktura uczenia przez wzmacnianie. W standardowym podejściu GPU czeka bezczynnie, gdy agent wykonuje długie sekwencje działań w środowisku (np. uruchamia kod, sprawdza testy). GLM-5 rozdziela silnik inferencji od silnika treningowego na osobne urządzenia GPU — silnik inferencji nieprzerwanie generuje trajektorie agenta, a gdy ich liczba osiąga próg, są przekazywane do treningu. Cały ekosystem RL oparto na otwartym frameworku Slime (github.com/THUDM/slime).

Z jakich elementów się składa?

GLM-5 to model fundacyjny, ale wokół niego zbudowano kilka komponentów:

Model bazowy (GLM-5) — wagi dostępne na Hugging Face pod licencją MIT, możliwe do uruchomienia lokalnie przy użyciu frameworków vLLM lub SGLang.

API Z.ai — interfejs programistyczny dostępny przez platformę Z.ai, wyceniony na ok. 1 USD/mln tokenów wejściowych i 3,20 USD/mln tokenów wyjściowych (ok. 4 zł i 13 zł). Dla porównania, Claude Opus 4.6 kosztuje ok. 5 USD/mln tokenów wejściowych — różnica jest więc kilkukrotna.

GLM-5-Turbo — zamknięty wariant zoptymalizowany pod kątem agentycznych zadań o wysokiej przepustowości, uruchomiony w marcu 2026 roku.

Tryby myślenia — model obsługuje trzy charakterystyki rozumowania: Interleaved Thinking (myślenie przed każdą odpowiedzią i wywołaniem narzędzia), Preserved Thinking (zachowywanie bloków rozumowania między turami w długich sesjach agentycznych) oraz Turn-level Thinking (możliwość wyłączenia rozumowania dla lekkich zapytań).

Framework Slime — otwartoźródłowy system post-trainingu RL, udostępniony społeczności przez Zhipu AI.

Do czego może być używany?

Dokumentacja i wyniki benchmarkowe wskazują, że GLM-5 jest projektowany przede wszystkim do:

Agentycznego inżynierowania oprogramowania — autonomicznego rozwiązywania prawdziwych zgłoszeń błędów z repozytoriów GitHub, implementacji funkcjonalności, naprawy regresji. W benchmarku SWE-bench Verified (który mierzy zdolność do rozwiązywania rzeczywistych problemów z GitHuba) model uzyskał 77,8%.

Zadań terminalowych i wieloetapowych — obsługi środowisk terminalowych, wieloetapowych zadań z narzędziami systemowymi. W Terminal-Bench 2.0 GLM-5 osiągnął 56,2%, co stawia go blisko Claude Opus 4.5 (59,3%).

Przeszukiwania i syntezy informacji — w benchmarku BrowseComp, mierzącym zdolność agenta do znajdowania trudno dostępnych informacji przez przeglądanie sieci, GLM-5 osiągnął wynik 75,9 (z zarządzaniem kontekstem), plasując się najwyżej wśród modeli open-source.

Frontendowego i backendowego tworzenia aplikacji — generowania i weryfikacji kodu dla HTML, React, Vue, Next.js, a także dla backendowych projektów w Go, Rust, Python, C++, Java i TypeScript.

Zadań długoterminowych — w Vending Bench 2, symulującym zarządzanie biznesem przez długi czas, model zakończył rok z saldem 4 432 USD (ok. 17 700 zł), plasując się jako lider wśród modeli open-source (Claude Opus 4.5 osiągnął 4 967 USD).

Czym różni się od innych rozwiązań?

Podstawowym punktem odniesienia jest porównanie z dominującymi modelami zamkniętymi — Anthropic Claude Opus 4.5/4.6, GPT-5.2 od OpenAI oraz Gemini 3 Pro od DeepMind.

W tych porównaniach GLM-5 jest modelem open-weights — co oznacza, że jego wagi są publicznie dostępne i można je uruchamiać lokalnie, modyfikować, wbudowywać we własne systemy bez uzależnienia od zewnętrznego dostawcy. GPT-5.2 i Claude Opus 4.5 są modelami w pełni zamkniętymi, dostępnymi wyłącznie przez API ich twórców.

Innym ważnym punktem odniesienia jest DeepSeek-V3 — chiński model open-source, który zyskał szeroką uwagę na początku 2025 roku. GLM-5 korzysta z mechanizmu uwagi opracowanego przez DeepSeek (DSA), ale buduje własną warstwę agentyczną i infrastrukturę RL. W benchmarkach agentycznych GLM-5 konsekwentnie wyprzedza DeepSeek-V3.2: na BrowseComp 75,9 vs 67,6, na τ²-Bench 89,7 vs 85,3.

W porównaniu do wcześniejszego sposobu budowania agentów kodujących — opartego na prostym promowaniu modelu i ręcznym składaniu wielu wywołań API — GLM-5 oferuje zintegrowane środowisko z mechanizmem zachowywania kontekstu rozumowania, wieloetapowym zarządzaniem trajektorią i wbudowaną obsługą narzędzi systemowych.

Najważniejsze ograniczenia / wyzwania

Przepaść do absolutnej czołówki zamkniętej — GLM-5 zbliża się do Claude Opus 4.5, ale nadal ustępuje mu na kilku kluczowych benchmarkach. Na Terminal-Bench 2.0 różnica wynosi ok. 3–9 punktów procentowych, a na SWE-bench Pro (niezależna aktualizowana platforma) — wynik 42,1% vs 52,9% dla Claude Opus 4.6. W zadaniach długoterminowych, wymagających wielu kolejnych kroków, błędy mogą kumulować się w łańcuchu: pomyłka w jednym etapie może niewidocznie zepsuć kolejne. Autorzy sami wskazują w raporcie, że wąskim gardłem pozostaje długoterminowa spójność i samokorekcja w wieloetapowych zadaniach.

Infrastruktura sprzętowa wymagana do lokalnego wdrożenia — uruchomienie 744-miliardowego modelu MoE lokalnie wymaga znaczących zasobów GPU. Według dostępnej dokumentacji jest to możliwe na klastrach wielowęzłowych; dla typowego użytkownika indywidualnego lub małego zespołu praktyczną opcją pozostaje API.

Prędkość inferencji — niezależne testy (m.in. raport nxcode.io z lutego 2026) wskazują na przepustowość ok. 44 tokenów na sekundę, co jest wolniejsze niż u niektórych konkurentów. W zadaniach agentycznych, gdzie model iteruje przez wiele kroków, może to wpływać na całkowity czas wykonania złożonych zadań.

Ekosystem narzędzi i integracji — modele zamknięte jak Claude czy GPT mają rozbudowane ekosystemy SDK, gotowych integracji i dokumentacji. Zhipu AI buduje własny ekosystem, ale na obecnym etapie jest on węższy.

Geopolityczny kontekst wdrożeń — jako model chińskiego producenta znajdującego się na liście podmiotów objętych ograniczeniami eksportowymi USA, GLM-5 może napotykać bariery regulacyjne lub polityczne przy wdrożeniach w sektorach objętych ścisłym nadzorem.

Dlaczego ta technologia jest istotna?

GLM-5 jest istotny z kilku niezależnych, nakładających się na siebie powodów.

Po pierwsze, w kwestii technicznej: udowadnia, że model otwartoźródłowy może zbliżyć się do poziomu systemów zamkniętych w zadaniach, które do niedawna były ich wyłączną domeną — wielogodzinnym autonomicznym rozwiązywaniu złożonych problemów inżynieryjnych. Wynik 77,8% na SWE-bench Verified, który mierzy zdolność do naprawy prawdziwych błędów z repozytoriów GitHub, był jeszcze rok temu nieosiągalny dla żadnego modelu open-source.

Po drugie, GLM-5 zmienia narrację wokół geopolitycznych ograniczeń w AI. Cały trening odbył się wyłącznie na układach Huawei Ascend — bez użycia kart NVIDIA, których eksport do Chin jest objęty restrykcjami. To potwierdza, że dojrzałość modelu nie jest już wyłącznie funkcją dostępu do konkretnego sprzętu.

Po trzecie, model otwiera nową kategorię zastosowań: agentyczne inżynierowanie oprogramowania jako infrastruktura, nie jako demonstracja. Możliwość wbudowania otwartych wag GLM-5 we własny pipeline, bez uzależnienia od zewnętrznego dostawcy, jest argumentem dla przedsiębiorstw ceniących kontrolę nad danymi i koszty. Cena API na poziomie ok. 1 USD za milion tokenów wejściowych — wielokrotnie niższa niż wiodące modele zamknięte — może na obecnym etapie sugerować przyspieszenie adopcji w organizacjach, które testują wdrożenia agentów kodujących.

Warto jednak podkreślić, że agentyczne modele językowe są wciąż technologią w fazie intensywnego rozwoju. Luka do absolutnej czołówki zamkniętej istnieje i jest widoczna w kilku kluczowych benchmarkach. GLM-5 pokazuje kierunek, w którym zmierza ta kategoria — ale nie jest jeszcze ostateczną odpowiedzią na pytanie o niezawodność i autonomię agentów AI w środowiskach produkcyjnych.

Podsumowanie

GLM-5 to duży model językowy klasy frontier, zaprojektowany z myślą o agentycznym inżynieringu oprogramowania. Udostępniany na licencji MIT, wytrenowany na 28,5 bilionach tokenów przy użyciu wyłącznie chińskiego sprzętu, osiąga wyniki porównywalne z wiodącymi modelami zamkniętymi w obszarach kodowania i autonomicznych zadań wieloetapowych. Kluczowe innowacje — DeepSeek Sparse Attention, asynchroniczna infrastruktura RL i tryby zachowywania kontekstu — są konkretną odpowiedzią na wąskie gardła dotychczasowych systemów agentycznych. Dla rynku oznacza to, że dostęp do modeli klasy frontier staje się stopniowo realną opcją poza zamkniętymi ekosystemami dostawców.

Źródła

Udostępnij ten artykuł

Powiązane artykuły