TML-Interaction-Small

Small (research preview)

Natywnie interaktywny model full-duplex 276B MoE (12B aktywnych) od Thinking Machines Lab; przetwarza audio, wideo i tekst w mikro-turach 200 ms.

⏳ Preview⏳ Ograniczony dostępModel multimodalnyModel audioWyspecjalizowane AI

Parametry

276B (12B active, MoE)

parametrów

Data premiery

11 maja 2026

Dostęp:APIWdrożenie:☁ Cloud

Przegląd

TML-Interaction-Small to model interakcyjny zaprezentowany 11 maja 2026 r. przez Thinking Machines Lab jako preview badawczy. Architektura to Mixture-of-Experts z łączną liczbą 276 mld parametrów i 12 mld parametrów aktywnych. Model przetwarza ciągłe strumienie audio, wideo i tekstu w mikro-turach po 200 ms, generując równolegle tekst i audio bez zewnętrznych komponentów typu voice-activity-detection.

Architektura korzysta z wczesnej fuzji bez encoderów: audio reprezentowane jest jako dMel, obrazy dzielone na patche 40×40 i kodowane przez hMLP, dekoder audio używa flow head. Wszystkie komponenty są trenowane od zera razem z transformerem. Na benchmarku FD-bench V1 model osiąga 0,40 s opóźnienia turn-taking, a na Audio MultiChallenge APR 43,4%. System współpracuje z asynchronicznym modelem background, który wykonuje dłuższe zadania reasoning i tool use.

Klasyfikacja

Model multimodalnyModel audioWyspecjalizowane AI

Zastosowania

Chatboty Asystent spotkań i notatek Tłumaczenie Praca z wiedzą Q&A / Odpowiadanie na pytania Korepetycje i edukacja Asystent wyszukiwania

Dostęp i wdrożenie

API

Chmura

Wagi: Zamknięte

Kluczowe parametry

🧩 Parametry: 276B (12B active, MoE)

✓ Narzędzia

📥 Wejście: tekst, audio, wideo

Specyfikacja techniczna

Parametry

276B (12B active, MoE)

parametrów

Funkcje:✓ Używanie narzędzi

Modalności

⬇ Wejście (Input)

textaudiovideo

⬆ Wyjście (Output)

textaudio

Możliwości i zastosowania

Natywne możliwości modelu

Konwersacja głosowa

Zdolność prowadzenia wieloturowych rozmów głosowych w czasie rzeczywistym z zachowaniem kontekstu i naturalnym tempem wypowiedzi.

Kategoria: speech

Mowa na tekst

Zdolność modelu do transkrypcji mowy do postaci tekstowej.

Kategoria: speech

Tekst na mowę

Zdolność modelu do generowania mowy na podstawie tekstu.

Kategoria: speech

Transkrypcja strumieniowa

Konwersja mowy na tekst w czasie rzeczywistym z natychmiastowym wyprowadzaniem wyników w trakcie trwania wypowiedzi.

Kategoria: speech

Tłumaczenie na żywo

Tłumaczenie mowy w czasie rzeczywistym między wieloma językami bez przerywania strumienia audio.

Kategoria: speech

Rozumienie audio

Zdolność modelu do interpretowania dźwięku, mowy, tonów i sygnałów audio.

Kategoria: audio

Rozumienie wideo

Zdolność analizy wideo poprzez przetwarzanie sekwencji klatek.

Kategoria: video

Rozumienie multimodalne

Zdolność modelu do łączenia i interpretowania informacji z więcej niż jednej modalności, np. tekstu i obrazu.

Kategoria: multimodal

Wyjście strumieniowe

Wiadomości strumieniowe umożliwiają pobieranie treści w czasie rzeczywistym, gdy model generuje odpowiedzi, bez czekania na wygenerowanie całej odpowiedzi. Takie podejście może znacząco poprawić doświadczenie użytkownika, zwłaszcza podczas tworzenia długich treści tekstowych, ponieważ użytkownicy mogą od razu zobaczyć, że odpowiedź zaczyna się pojawiać.

Kategoria: reasoning

Wywoływanie funkcji

Natywne wsparcie dla ustrukturyzowanego wykorzystania narzędzi, umożliwiające przepływy pracy oparte na agentach.

Kategoria: planning

Wielojęzyczność

Zdolność modelu do rozumienia i generowania treści w wielu językach.

Kategoria: language

Rozumowanie

Zdolność modelu do logicznego wnioskowania, analizowania zależności i wyprowadzania odpowiedzi na podstawie przesłanek.

Kategoria: reasoning

Dziedziny zastosowań

Chatboty Asystent spotkań i notatek Tłumaczenie Praca z wiedzą Q&A / Odpowiadanie na pytania Korepetycje i edukacja Asystent wyszukiwania

Wyniki benchmarków

13 benchmarków

FD-bench V1 (turn-taking latency)

latency

0.40s