Robocikowo>ROBOCIKOWO
TM

TML-Interaction-Small

Small (research preview)
Natywnie interaktywny model full-duplex 276B MoE (12B aktywnych) od Thinking Machines Lab; przetwarza audio, wideo i tekst w mikro-turach 200 ms.
⏳ Preview⏳ Ograniczony dostępModel multimodalnyModel audioWyspecjalizowane AI
Parametry
276B (12B active, MoE)
parametrów
Data premiery
11 maja 2026
Dostęp:APIWdrożenie:☁ Cloud

Przegląd

TML-Interaction-Small to model interakcyjny zaprezentowany 11 maja 2026 r. przez Thinking Machines Lab jako preview badawczy. Architektura to Mixture-of-Experts z łączną liczbą 276 mld parametrów i 12 mld parametrów aktywnych. Model przetwarza ciągłe strumienie audio, wideo i tekstu w mikro-turach po 200 ms, generując równolegle tekst i audio bez zewnętrznych komponentów typu voice-activity-detection.

Architektura korzysta z wczesnej fuzji bez encoderów: audio reprezentowane jest jako dMel, obrazy dzielone na patche 40×40 i kodowane przez hMLP, dekoder audio używa flow head. Wszystkie komponenty są trenowane od zera razem z transformerem. Na benchmarku FD-bench V1 model osiąga 0,40 s opóźnienia turn-taking, a na Audio MultiChallenge APR 43,4%. System współpracuje z asynchronicznym modelem background, który wykonuje dłuższe zadania reasoning i tool use.

Klasyfikacja
Model multimodalnyModel audioWyspecjalizowane AI
Dostęp i wdrożenie
API
Chmura
Wagi: Zamknięte
Kluczowe parametry
🧩 Parametry: 276B (12B active, MoE)
Narzędzia
📥 Wejście: tekst, audio, wideo

Specyfikacja techniczna

Parametry
276B (12B active, MoE)
parametrów
Funkcje:Używanie narzędzi
Modalności
⬇ Wejście (Input)
textaudiovideo
⬆ Wyjście (Output)
textaudio

Możliwości i zastosowania

Natywne możliwości modelu
Konwersacja głosowa
Zdolność prowadzenia wieloturowych rozmów głosowych w czasie rzeczywistym z zachowaniem kontekstu i naturalnym tempem wypowiedzi.
Kategoria: speech
Mowa na tekst
Zdolność modelu do transkrypcji mowy do postaci tekstowej.
Kategoria: speech
Tekst na mowę
Zdolność modelu do generowania mowy na podstawie tekstu.
Kategoria: speech
Transkrypcja strumieniowa
Konwersja mowy na tekst w czasie rzeczywistym z natychmiastowym wyprowadzaniem wyników w trakcie trwania wypowiedzi.
Kategoria: speech
Tłumaczenie na żywo
Tłumaczenie mowy w czasie rzeczywistym między wieloma językami bez przerywania strumienia audio.
Kategoria: speech
Rozumienie audio
Zdolność modelu do interpretowania dźwięku, mowy, tonów i sygnałów audio.
Kategoria: audio
Rozumienie wideo
Zdolność analizy wideo poprzez przetwarzanie sekwencji klatek.
Kategoria: video
Rozumienie multimodalne
Zdolność modelu do łączenia i interpretowania informacji z więcej niż jednej modalności, np. tekstu i obrazu.
Kategoria: multimodal
Wyjście strumieniowe
Wiadomości strumieniowe umożliwiają pobieranie treści w czasie rzeczywistym, gdy model generuje odpowiedzi, bez czekania na wygenerowanie całej odpowiedzi. Takie podejście może znacząco poprawić doświadczenie użytkownika, zwłaszcza podczas tworzenia długich treści tekstowych, ponieważ użytkownicy mogą od razu zobaczyć, że odpowiedź zaczyna się pojawiać.
Kategoria: reasoning
Wywoływanie funkcji
Natywne wsparcie dla ustrukturyzowanego wykorzystania narzędzi, umożliwiające przepływy pracy oparte na agentach.
Kategoria: planning
Wielojęzyczność
Zdolność modelu do rozumienia i generowania treści w wielu językach.
Kategoria: language
Rozumowanie
Zdolność modelu do logicznego wnioskowania, analizowania zależności i wyprowadzania odpowiedzi na podstawie przesłanek.
Kategoria: reasoning

Wyniki benchmarków

13 benchmarków
FD-bench V1 (turn-taking latency)
latency
0.40s
📄 Thinking Machines Lab blog (May 2026)
FD-bench V1.5 (average)
average quality
77.8points
📄 Thinking Machines Lab blog (May 2026)
FD-bench V3 (Response Quality)
response quality
82.8%
📄 Thinking Machines Lab blog (May 2026)
Z włączonym agentem background; Pass@1 = 68.0%.
Audio MultiChallenge APR
APR
43.4%
📄 Thinking Machines Lab blog (May 2026)
BigBench Audio
accuracy
75.7%
📄 Thinking Machines Lab blog (May 2026)
Wynik 96.5% z włączonym agentem background.
IFEval (VoiceBench)
accuracy
82.1%
📄 Thinking Machines Lab blog (May 2026)
IFEval (Text)
accuracy
89.7%
📄 Thinking Machines Lab blog (May 2026)
Harmbench
refusal rate
99.0%
📄 Thinking Machines Lab blog (May 2026)
TimeSpeak (internal)
macro accuracy
64.7%
📄 Thinking Machines Lab blog (May 2026)
Wewnętrzny benchmark świadomości czasu.
CueSpeak (internal)
macro accuracy
81.7%
📄 Thinking Machines Lab blog (May 2026)
Wewnętrzny benchmark werbalnych wskazówek.
RepCount-A
off-by-one
35.4%
📄 Thinking Machines Lab blog (May 2026)
ProactiveVideoQA
PAUC@ω=0.5
33.5points
📄 Thinking Machines Lab blog (May 2026)
Charades
mIoU
32.4points
📄 Thinking Machines Lab blog (May 2026)

Architektura techniczna

Rdzeń architektury (Core Architecture)
Forma modelu (Model Form)