Rozliczanie za tokeny w AI — jak działa „Tokenpocalypse”

Od 1 czerwca 2026 roku GitHub Copilot przestał rozliczać użytkowników stałym abonamentem i przeszedł na płatność za faktyczne zużycie tokenów. Niemal w tym samym czasie Uber w cztery miesiące wyczerpał roczny budżet na AI i nałożył limity wydatków na pracowników. To dwa oblicza tej samej zmiany, którą część branży nazwała pół żartem, pół serio „Tokenpocalypse" — przejścia narzędzi AI z ryczałtu na rozliczanie tokenowe.

Najważniejsze w skrócie

Rozliczanie tokenowe (usage-based billing) nalicza opłatę za realne zużycie tokenów wejściowych, wyjściowych i z pamięci podręcznej, według stawki wybranego modelu.
GitHub Copilot przeszedł na ten model 1 czerwca 2026 — tak zwane premium requesty zostały zastąpione kredytami AI, gdzie 1 kredyt odpowiada 0,01 USD, a ceny bazowe planów się nie zmieniły.
Autonomiczne sesje agentowe potrafią zużyć wielokrotnie więcej tokenów niż pojedyncze pytanie, dlatego ryczałt przestał być dla dostawców rentowny.
Uber wyczerpał roczny budżet na AI w cztery miesiące i wprowadził limit 1 500 USD miesięcznie na pracownika i na każde narzędzie.
Nowy model przerzuca zmienność kosztu na klienta — stąd budżety, limity i alerty oraz nerwowa reakcja deweloperów.

Czym jest rozliczanie tokenowe

Rozliczanie tokenowe (po angielsku usage-based albo per-token billing) to model cenowy, w którym płacisz za faktyczną ilość pracy wykonanej przez model językowy, mierzoną w tokenach, zamiast stałej kwoty miesięcznej. Token to podstawowa jednostka, na jaką tokenizacja dzieli tekst — najczęściej fragment słowa lub kilka znaków. Im dłuższy prompt, dłuższy kontekst i dłuższa odpowiedź, tym więcej tokenów przepływa przez model i tym wyższy koszt.

W modelu abonamentowym płaciłeś tyle samo niezależnie od tego, czy zadałeś jedno pytanie, czy uruchomiłeś wielogodzinną sesję. W modelu tokenowym rachunek odzwierciedla rzeczywiste zużycie zasobów obliczeniowych. To ważna różnica, bo koszt inferencji — czyli generowania odpowiedzi przez model — ponosi dostawca przy każdym tokenie, a nie raz w miesiącu.

Jak działa rozliczanie za tokeny

Każda interakcja z asystentem składa się z kilku strumieni tokenów. Tokeny wejściowe to twój prompt razem z dołączonym kontekstem, na przykład fragmentami repozytorium. Tokeny z pamięci podręcznej to kontekst, który model przechowuje i ponownie wykorzystuje między zapytaniami. Tokeny wyjściowe to wygenerowana odpowiedź. Każdy z tych strumieni ma własną stawkę, zależną od użytego modelu.

GitHub Copilot przelicza sumę zużytych tokenów na wewnętrzną walutę — kredyty AI, gdzie 1 kredyt to równowartość 0,01 USD. Szybkie pytanie w czacie do lekkiego modelu kosztuje ułamek kredytu, a długa sesja agenta przeszukującego wiele plików pochłania ich znacznie więcej, bo wykonuje więcej pracy. Co istotne, uzupełnianie kodu i podpowiedzi w edytorze pozostają darmowe i nie zużywają kredytów.

Diagram 1. Od zapytania do kosztu

Schemat pokazuje, jak pojedyncza interakcja zamienia się w naliczoną kwotę: trzy strumienie tokenów spotykają się ze stawką modelu, a wynik trafia do puli kredytów i budżetu użytkownika.

Plaintext

flowchart LR
    A["Zapytanie programisty"] --> B["Tokeny wejsciowe (prompt + kontekst)"]
    A --> C["Tokeny z pamieci podrecznej"]
    D["Odpowiedz modelu"] --> E["Tokeny wyjsciowe"]
    B --> F["Stawka wybranego modelu za token"]
    C --> F
    E --> F
    F --> G["Kredyty AI (1 kredyt = 0,01 USD)"]
    G --> H["Pula w planie i budzet uzytkownika"]

Kluczowe elementy modelu

Pierwszym elementem jest stawka za token zależna od modelu. Modele frontierowe, projektowane do złożonego rozumowania, kosztują więcej niż lekkie modele do prostych zadań. Wybór modelu jest więc wyborem ekonomicznym, a nie tylko jakościowym.

Drugim elementem jest struktura puli. W planach indywidualnych Copilota miesięczny przydział składa się z kredytów bazowych, które odpowiadają cenie subskrypcji, oraz puli elastycznej (flex), czyli dodatkowej porcji, którą dostawca może dostosowywać w miarę zmian cen modeli. Najpierw zużywane są kredyty bazowe, potem elastyczne.

Trzecim elementem jest zniknięcie tak zwanego fallbacku. Wcześniej, po wyczerpaniu limitu premium requestów, użytkownik mógł dalej pracować na tańszym modelu. W nowym modelu o dostępie decyduje stan kredytów i budżet ustawiony przez administratora, a nie automatyczne zejście na słabszy model.

Czwartym elementem jest kontrola budżetu. Administratorzy w firmach mogą ustawiać limity na poziomie organizacji, centrum kosztów i pojedynczego użytkownika, łączyć niewykorzystane kredyty w jedną wspólną pulę oraz korzystać z podglądu rachunku przed faktycznym obciążeniem.

Diagram 2. Architektura rozliczenia w planie Copilota

Schemat pokazuje, jak plan dzieli się na kredyty bazowe i elastyczne, a po wyczerpaniu puli wchodzą w grę dopłaty albo twarde limity ustawione przez administratora.

Plaintext

flowchart TD
    A["Plan, np. Copilot Pro (10 USD)"] --> B["Kredyty bazowe"]
    A --> C["Pula elastyczna (flex)"]
    B --> D["Zuzycie naliczane wg tokenow"]
    C --> D
    D --> E{"Pula wyczerpana?"}
    E -->|Nie| F["Praca bez doplat"]
    E -->|Tak| G["Doplata wg stawek lub twardy limit"]
    G --> H["Kontrola admina: budzety, limity, alerty"]

Czym różni się od modelu abonamentowego

Najprościej ująć to tak: abonament jest przewidywalny dla klienta, ale ryzykowny dla dostawcy, a model tokenowy jest odwrotnie — przewidywalny dla dostawcy i zmienny dla klienta. Przy stałej opłacie to dostawca brał na siebie ryzyko, że jeden użytkownik wygeneruje koszty wielokrotnie przewyższające jego subskrypcję. GitHub przyznał wprost, że dotąd absorbował rosnące koszty inferencji i że poprzedni model przestał być zrównoważony.

Powodem zmiany jest ewolucja samych narzędzi. Copilot przestał być tylko asystentem podpowiadającym linijki kodu w edytorze i stał się platformą agentową, zdolną prowadzić długie, wieloetapowe sesje i iterować po całych repozytoriach. Takie użycie generuje znacznie wyższe zapotrzebowanie na moc obliczeniową, a w starym modelu szybkie pytanie i wielogodzinna autonomiczna sesja kosztowały użytkownika tyle samo. Model tokenowy przywraca związek między ceną a rzeczywistym zużyciem.

Gdzie spotkasz rozliczanie tokenowe

Rozliczanie za tokeny nie jest nowością — to domyślny model interfejsów API u dostawców takich jak OpenAI, Anthropic czy Google, gdzie programiści od początku płacą za każdy token. Nowe jest przeniesienie tej logiki do gotowych narzędzi dla deweloperów, które wcześniej kusiły stałą, niską ceną.

Najmocniej odczuwają to narzędzia agentowe do kodowania. Oprócz Copilota są to między innymi Cursor oraz Claude Code, czyli właśnie te aplikacje, na które Uber nałożył limit 1 500 USD miesięcznie na pracownika i na każde narzędzie. W skali przedsiębiorstwa rozliczanie tokenowe wymusza nowy rodzaj zarządzania — budżety zespołów, pulpity śledzące zużycie i polityki tego, kto i ile tokenów może spalić.

Ograniczenia i ryzyka

Największą wadą jest nieprzewidywalność rachunku. Gdy koszt zależy od stylu pracy, ten sam pracownik może w jednym miesiącu zmieścić się w pakiecie, a w innym wygenerować wielokrotność tej kwoty. Część deweloperów po ogłoszeniu zmiany w Copilocie publikowała zrzuty ekranu sugerujące skok rachunku z kilkudziesięciu do setek lub tysięcy dolarów, choć inni argumentowali, że tak drastyczne wzrosty dotyczą głównie mało efektywnego „vibe codingu" z setkami iteracji.

Drugim ryzykiem jest wpływ na produktywność. Jeśli pracownik zaczyna oszczędzać tokeny, by nie przekroczyć limitu, może unikać narzędzia tam, gdzie realnie by pomogło. To odwrót od mody na „tokenmaxxing", czyli maksymalizowanie zużycia AI, którą jeszcze niedawno firmy premiowały — Uber wcześniej zachęcał pracowników do jak najintensywniejszego korzystania z AI, a nawet zestawiał ich na wewnętrznych rankingach.

Trzecim, najgłębszym ryzykiem jest to, że obecne ceny są mocno subsydiowane kapitałem inwestorów. Wiele wskazuje, że nawet podwyższone stawki wciąż nie pokrywają pełnego kosztu inferencji. W miarę jak laboratoria takie jak Anthropic przygotowują się do wejścia na giełdę, presja na rentowność rośnie, a wraz z nią prawdopodobieństwo dalszych podwyżek. Daniela Amodei, prezeska Anthropic, publicznie bagatelizuje wątpliwości co do zwrotu z inwestycji w AI, lecz sam fakt, że pytania o ryzyka związane z tokenami pojawiają się w kontekście dokumentów giełdowych, pokazuje skalę niepewności.

Dlaczego to ważne

Rozliczanie tokenowe kończy erę, w której zaawansowana AI wydawała się niemal darmowa. Koszt, dotąd ukryty w bilansach dostawców, zaczyna być przerzucany na klienta, co zmienia sposób, w jaki firmy i pojedynczy programiści traktują te narzędzia — token staje się zasobem, którym trzeba zarządzać jak budżetem chmurowym czy energią.

Reakcja Ubera bywa odczytywana jako rozsądna odpowiedź na przekroczenie wydatków. Simon Willison zauważył, że limit 1 500 USD na narzędzie jest znacznie sensowniejszy niż wcześniejsze rankingi zachęcające do spalania jak największej liczby tokenów, a jednocześnie zdradza, jaką realną wartość firma przypisuje tym narzędziom. Dla całej branży „Tokenpocalypse" to test: czy dostawcy zdołają obniżyć koszt inferencji na tyle, by spotkać się w połowie drogi z gotowością klientów do płacenia.