TM
Natywnie interaktywny model full-duplex 276B MoE (12B aktywnych) od Thinking Machines Lab; przetwarza audio, wideo i tekst w mikro-turach 200 ms.
⏳ Preview⏳ Ograniczony dostępModel multimodalnyModel audioWyspecjalizowane AI
Parametry
276B (12B active, MoE)
parametrów
Data premiery
11 maja 2026
Dostęp:APIWdrożenie:☁ Cloud
Przegląd
Klasyfikacja
Model multimodalnyModel audioWyspecjalizowane AI
Zastosowania
Dostęp i wdrożenie
API
Chmura
Wagi: Zamknięte
Kluczowe parametry
🧩 Parametry: 276B (12B active, MoE)
✓ Narzędzia
📥 Wejście: tekst, audio, wideo
Specyfikacja techniczna
Parametry
276B (12B active, MoE)
parametrów
Funkcje:✓ Używanie narzędzi
Modalności
⬇ Wejście (Input)
textaudiovideo
⬆ Wyjście (Output)
textaudio
Możliwości i zastosowania
Natywne możliwości modelu
Konwersacja głosowa
Zdolność prowadzenia wieloturowych rozmów głosowych w czasie rzeczywistym z zachowaniem kontekstu i naturalnym tempem wypowiedzi.
Kategoria: speech
Mowa na tekst
Zdolność modelu do transkrypcji mowy do postaci tekstowej.
Kategoria: speech
Tekst na mowę
Zdolność modelu do generowania mowy na podstawie tekstu.
Kategoria: speech
Transkrypcja strumieniowa
Konwersja mowy na tekst w czasie rzeczywistym z natychmiastowym wyprowadzaniem wyników w trakcie trwania wypowiedzi.
Kategoria: speech
Tłumaczenie na żywo
Tłumaczenie mowy w czasie rzeczywistym między wieloma językami bez przerywania strumienia audio.
Kategoria: speech
Rozumienie audio
Zdolność modelu do interpretowania dźwięku, mowy, tonów i sygnałów audio.
Kategoria: audio
Rozumienie wideo
Zdolność analizy wideo poprzez przetwarzanie sekwencji klatek.
Kategoria: video
Rozumienie multimodalne
Zdolność modelu do łączenia i interpretowania informacji z więcej niż jednej modalności, np. tekstu i obrazu.
Kategoria: multimodal
Wyjście strumieniowe
Wiadomości strumieniowe umożliwiają pobieranie treści w czasie rzeczywistym, gdy model generuje odpowiedzi, bez czekania na wygenerowanie całej odpowiedzi. Takie podejście może znacząco poprawić doświadczenie użytkownika, zwłaszcza podczas tworzenia długich treści tekstowych, ponieważ użytkownicy mogą od razu zobaczyć, że odpowiedź zaczyna się pojawiać.
Kategoria: reasoning
Wywoływanie funkcji
Natywne wsparcie dla ustrukturyzowanego wykorzystania narzędzi, umożliwiające przepływy pracy oparte na agentach.
Kategoria: planning
Wielojęzyczność
Zdolność modelu do rozumienia i generowania treści w wielu językach.
Kategoria: language
Rozumowanie
Zdolność modelu do logicznego wnioskowania, analizowania zależności i wyprowadzania odpowiedzi na podstawie przesłanek.
Kategoria: reasoning
Wyniki benchmarków
13 benchmarków
FD-bench V1 (turn-taking latency)
latency
0.40s
📄 Thinking Machines Lab blog (May 2026)
FD-bench V1.5 (average)
average quality
77.8points
📄 Thinking Machines Lab blog (May 2026)
FD-bench V3 (Response Quality)
response quality
82.8%
📄 Thinking Machines Lab blog (May 2026)
Z włączonym agentem background; Pass@1 = 68.0%.
Audio MultiChallenge APR
APR
43.4%
📄 Thinking Machines Lab blog (May 2026)
BigBench Audio
accuracy
75.7%
📄 Thinking Machines Lab blog (May 2026)
Wynik 96.5% z włączonym agentem background.
IFEval (VoiceBench)
accuracy
82.1%
📄 Thinking Machines Lab blog (May 2026)
IFEval (Text)
accuracy
89.7%
📄 Thinking Machines Lab blog (May 2026)
Harmbench
refusal rate
99.0%
📄 Thinking Machines Lab blog (May 2026)
TimeSpeak (internal)
macro accuracy
64.7%
📄 Thinking Machines Lab blog (May 2026)
Wewnętrzny benchmark świadomości czasu.
CueSpeak (internal)
macro accuracy
81.7%
📄 Thinking Machines Lab blog (May 2026)
Wewnętrzny benchmark werbalnych wskazówek.
RepCount-A
off-by-one
35.4%
📄 Thinking Machines Lab blog (May 2026)
ProactiveVideoQA
PAUC@ω=0.5
33.5points
📄 Thinking Machines Lab blog (May 2026)
Charades
mIoU
32.4points
📄 Thinking Machines Lab blog (May 2026)
Architektura techniczna
Rdzeń architektury (Core Architecture)
Forma modelu (Model Form)
Źródła i powiązane strony
4 źródła
BlogInteraction Models: A Scalable Approach to Human-AI CollaborationWebThinking Machines wants to build an AI that actually listens while it talks (TechCrunch)WebThinking Machines shows off preview of near-realtime AI voice and video conversation (VentureBeat)WebThinking Machines drops a new, highly responsive model designed for humanlike interactions (SiliconANGLE)