17 000 tokenów na sekundę. Nowy układ Taalas rzuca wyzwanie gigantom

Zespół zaledwie 24 osób rzuca rękawicę największym graczom na rynku sztucznej inteligencji. Amerykański startup Taalas zaprezentował chip HC1, który dzięki fizycznemu zintegrowaniu modelu algorytmicznego bezpośrednio z krzemem osiąga zawrotną prędkość 17 tysięcy tokenów na sekundę. To radykalne rozwiązanie drastycznie obniża koszty i zapotrzebowanie na prąd, ale jednocześnie zmusza branżę do trudnej debaty: czy warto poświęcić elastyczność oprogramowania dla surowej wydajności?

Najważniejsze w skrócie

Rekordowa szybkość: 17 000 tokenów na sekundę na użytkownika – to wynik wielokrotnie deklasujący obecnych liderów branży.
Model w krzemie: Chip HC1 nie ładuje danych do pamięci; model językowy (obecnie Llama 3.1 8B) jest na stałe „wypalony” w strukturze fizycznej układu.
Niskie zużycie energii: Pojedynczy procesor pobiera zaledwie 250W, co pozwala na chłodzenie powietrzem bez drogiej infrastruktury.
Potężne oszczędności: Według twórców, koszt generowania tokenów i zużycie energii stanowią zaledwie jedną dziesiątą tego, co oferują klasyczne procesory graficzne.

Ekstremalna specjalizacja, czyli AI wyryte w krzemie

Założona przed dwoma laty firma Taalas, kierowana przez weteranów z AMD (m.in. Ljubišę Bajicia, byłego CEO Tenstorrent), postanowiła złamać dotychczasowe zasady projektowania akceleratorów AI. Zamiast budować uniwersalne, programowalne środowisko, inżynierowie stworzyli zoptymalizowany układ klasy ASIC (Application-Specific Integrated Circuit).

W architekturze HC1 zrezygnowano z powolnego i energochłonnego przesyłania danych między procesorem a potężnymi kośćmi pamięci HBM. Zamiast tego, wagi wybranego LLM zostały dosłownie zapisane w warstwach masek na etapie produkcji (Mask ROM). Firma zostawiła jedynie niewielki bufor szybkiej, programowalnej pamięci SRAM, która obsługuje kontekst użytkownika (KV Cache) oraz pozwala na mikrodostrajanie (np. poprzez techniki LoRA). Efekt? Model produkowany w procesie technologicznym TSMC N6 (powierzchnia 815 mm²) reaguje natychmiastowo, eliminując tzw. "wąskie gardło von Neumanna".

Nokaut w starciu z tradycyjnymi rozwiązaniami

Liczby zaprezentowane przez Taalas robią ogromne wrażenie na tle obecnej rynkowej czołówki. Tradycyjne układy GPU, takie jak wszechobecny NVIDIA H100, opierają się na uniwersalności, która kosztuje cenny czas.

Podczas gdy najnowsza architektura Nvidia B200 osiąga w testach około 350 tokenów na sekundę, wyspecjalizowany Groq dobija do 600, a potężne układy Cerebras zbliżają się do 2000 tokenów, układ Taalas HC1 dosłownie rozbija bank wynikiem rzędu 17 000 tokenów/s. Co więcej, chłodzenie nie wymaga tu infrastruktury cieczowej. Serwer wyposażony w 10 chipów HC1 konsumuje łącznie około 2,5 kW, co pozwala na bezpośredni montaż w konwencjonalnych szafach RACK.

Startup z kapitałem zaledwie 30 milionów dolarów na start udowodnił, że można stworzyć sprzęt o wydajności o rzędy wielkości wyższej niż rozwiązania kosztujące miliardy. Dziś firma dysponuje już finansowaniem na poziomie 200 milionów dolarów.

Genialny ruch czy ślepa uliczka?

W sieci szybko wybuchła gorąca dyskusja. Optymiści widzą w układzie HC1 Świętego Graala dla specyficznych zastosowań. Niskie opóźnienia i umiarkowany pobór mocy to idealne środowisko dla robotyki operującej w czasie rzeczywistym.

Z drugiej strony, eksperci od uczenia maszynowego nie kryją sceptycyzmu. Algorytmy sztucznej inteligencji ewoluują w błyskawicznym tempie. Główny zarzut brzmi jasno: sprzętowe zablokowanie konkretnego modelu w krzemie jest zabójcze dla cykli iteracyjnych. W świecie, gdzie co kilka tygodni debiutuje nowa, zoptymalizowana architektura sieci neuronowych, chip ograniczony do Llamy 3.1 8B może stać się przestarzały szybciej, niż trafi do szerokiej dystrybucji. Producent broni się twierdząc, że skrócenie cyklu produkcyjnego chipu z tradycyjnych sześciu do dwóch miesięcy minimalizuje to ryzyko, a niska cena samej kostki uzasadnia jej ewentualną częstszą wymianę.

Dlaczego to ważne?

Podejście firmy Taalas to brutalny sprawdzian dla zasady, którą do tej pory kierowało się Dolina Krzemowa: "uniwersalność ponad wszystko". Zbliżamy się do fizycznych granic tego, jak szybko potrafimy przepychać ogromne pakiety danych z pamięci RAM do procesora. Architektura HC1 całkowicie omija ten problem, pokazując, że przyszłość sztucznej inteligencji może pójść w stronę skrajnej fragmentacji sprzętowej.

Zamiast budować wielkie centra danych oparte na jednym, drogim typie procesorów GPU, rynek może zacząć tworzyć wyspecjalizowane "wytłoczki". Tego typu ultraszybkie i tanie w eksploatacji układy mogą stać się fundamentem dla dziedziny takiej jak Physical AI, gdzie autonomiczne maszyny, drony czy inteligentne pojazdy potrzebują natychmiastowego przetwarzania sygnałów z otoczenia bez czekania na odpowiedź z chmury. Choć Taalas nie zastąpi wielkich serwerowni trenujących fundamenty przyszłych algorytmów, może całkowicie zdominować warstwę tak zwanego "edge inference", czyli wnioskowania na urządzeniach końcowych, pod warunkiem, że klienci zaakceptują model biznesowy oparty na wymianie całych chipów zamiast pobierania aktualizacji z sieci.

Co dalej?

Premiera układu HC2: Firma planuje wypuszczenie w sezonie zimowym drugiej generacji procesora, który ma zaoferować wyższą gęstość upakowania komponentów oraz jeszcze wyższą szybkość działania.
Próby z kolosami: Taalas bada już możliwości tworzenia wielochipowych klastrów obsługujących ogromne modele. Rozważany jest projekt z użyciem około 30 kości HC1 w celu uruchomienia architektury klasy DeepSeekR1-671B.
Weryfikacja rynkowa: Najbliższe miesiące pokażą, czy firmy technologiczne są gotowe porzucić swobodę zmian oprogramowania na rzecz surowej wydajności i niższych rachunków za prąd.