Conversational AI (Voice + Chat)
Jak działa
W trybie głosowym wejściowy strumień audio jest najpierw przetwarzany przez ASR na tekst, a następnie analizowany przez NLU pod kątem intencji (np. „rezerwacja_lotu") i encji (data, miejsce, liczba osób). Moduł zarządzania dialogiem aktualizuje stan rozmowy, decyduje o kolejnej akcji (odpowiedź, doprecyzowanie, wywołanie API) i przekazuje strukturę odpowiedzi do NLG. NLG generuje tekst, który dla trybu głosowego jest przetwarzany przez TTS na audio. W architekturze opartej na LLM (post-2022) kroki NLU + dialog + NLG zwykle łączą się w jedno wywołanie modelu, a w wariantach S2S również ASR i TTS są wchłaniane do jednego modelu multimodalnego.
Rozwiązany problem
Tradycyjne interfejsy GUI (formularze, menu, tabele) wymagają od użytkownika nauki specyficznej struktury aplikacji i często nie obsługują niejednoznacznych zapytań. Conversational AI rozwiązuje problem dostępu do funkcji systemu w naturalny sposób — głosem lub tekstem — z obsługą niejednoznaczności, kontekstu wieloturowego i fallbacku do człowieka, gdy system nie radzi sobie z zapytaniem.
Komponenty
Konwertuje strumień audio na tekst. Klasyczne implementacje używają hybrydowych modeli akustyczno-językowych; współczesne systemy bazują na modelach end-to-end typu Whisper. Opcjonalny dla trybu czatowego.
Oficjalna
Wyodrębnia intencję użytkownika i istotne encje (slots) z tekstu wejściowego. W systemach pre-LLM realizowane przez klasyfikatory intencji + NER; w systemach opartych na LLM często łączy się z dialog management.
Oficjalna
Śledzi stan rozmowy między turami (Dialog State Tracking) i decyduje o kolejnej akcji systemu (Dialog Policy): odpowiedź, pytanie doprecyzowujące, wywołanie narzędzia, eskalacja do człowieka. Centralny komponent odróżniający Conversational AI od pojedynczego wywołania modelu.
Tworzy tekstową odpowiedź dla użytkownika. Klasycznie szablony + reguły (template-based NLG); współcześnie generacja swobodna z LLM kontrolowana przez prompt i guardrails.
Oficjalna
Konwertuje tekst odpowiedzi na strumień audio. Współczesne systemy neuronowe (np. WaveNet, Tacotron, VALL-E) generują mowę o jakości zbliżonej do ludzkiej z opcjonalnym sterowaniem emocjami i głosem. Opcjonalny dla trybu czatowego.
Oficjalna
Przechowuje historię rozmowy w sesji oraz opcjonalnie profil użytkownika i pamięć długoterminową między sesjami. Niezbędny dla spójności wieloturowej i personalizacji.
Oficjalna
Mechanizm wykrywania, że system nie rozumie wypowiedzi lub zapytanie wykracza poza jego zakres, oraz przekazania rozmowy do agenta ludzkiego z pełnym kontekstem. Krytyczny dla zaufania użytkownika.
Oficjalna
Implementacja
Tryb głosowy wymaga end-to-end opóźnienia poniżej ~500 ms od końca wypowiedzi użytkownika do początku odpowiedzi. Klasyczne potoki ASR→LLM→TTS bez streamingu często osiągają 1–3 s, co odbierane jest jako sztuczna i niewygodna.
LLM-based dialog policy może generować pewnie brzmiące, ale niepoprawne fakty (ceny, regulaminy, dane konta), co prowadzi do utraty zaufania i ryzyka prawnego.
Modele ASR mają znacznie wyższy WER dla niestandardowych akcentów, gwary, kodemiksu i mowy w hałaśliwym otoczeniu. Błędy ASR propagują się do NLU, dając niepoprawne intencje.
System uparcie próbujący odpowiedzieć poza swoim zakresem prowadzi do frustracji użytkownika, negatywnego NPS i odpływu klientów. Często ważniejsze niż jakość odpowiedzi w obrębie zakresu.
Akumulowana historia konwersacji może przekroczyć okno kontekstu LLM lub zostać niepoprawnie podsumowana, prowadząc do zapomnienia wcześniej ustalonych intencji i encji.
Złośliwy użytkownik może próbować przejąć kontrolę nad zachowaniem systemu („zapomnij poprzednie instrukcje", „udawaj DAN"), co w nieodpornym systemie prowadzi do ujawnienia promptu systemowego lub działania poza zakresem.
Conversational AI dryfuje wraz ze zmianami procesów biznesowych, oferty, dokumentacji. Bez automatycznej oceny rozmów (intent accuracy, resolution rate, escalation rate) jakość spada w sposób niewidoczny.
Ewolucja
Joseph Weizenbaum (MIT) tworzy ELIZĘ — program imitujący terapeutę rogeriańskiego za pomocą reguł dopasowania wzorców. Pokazuje, że nawet prosty system tekstowy może wzbudzić u użytkownika iluzję rozumienia.
Architektura slot-filling z wyraźnie zdefiniowanymi intencjami i encjami staje się dominującym wzorcem dla systemów dialogowych zorientowanych na zadanie (np. rezerwacje lotów).
Apple wprowadza Siri w iPhone 4S, popularyzując ideę osobistego asystenta głosowego dostępnego dla mas. W kolejnych latach pojawiają się Google Now (2012), Cortana (2014), Alexa (2014).
Vinyals i Le (Google) publikują „A Neural Conversational Model" — pokazują, że RNN encoder-decoder mogą generować spójne odpowiedzi w otwartej dziedzinie. Otwiera erę neuronowych chatbotów generatywnych.
OpenAI publikuje ChatGPT (listopad 2022). LLM po RLHF okazuje się zdolny do wieloturowych rozmów w otwartej dziedzinie z jakością odpowiedzi przewyższającą dotychczasowe systemy modułowe. Architektura Conversational AI przesuwa się od modułowych pipeline do unified LLM.
OpenAI wprowadza Advanced Voice Mode w GPT-4o (maj 2024) — model multimodalny audio→audio z opóźnieniem ~320 ms, eliminujący pośredni krok tekstowy. Inne modele S2S (Moshi, Hume Octave) potwierdzają trend.
Sierra publikuje manifest Agents-as-a-Service (marzec 2026) — Conversational AI integruje się z paradygmatem agentowym, w którym jeden agent obsługuje czat, głos, e-mail i ponad 30 języków z wbudowanymi guardrails, autonomicznie ulepszany przez agenta nadrzędnego (Ghostwriter).
Szczegóły techniczne
Hiperparametry (konfigurowalne osie)
Tryb interakcji z użytkownikiem. Tryb głosowy wymaga ASR + TTS oraz znacznie niższych opóźnień (poniżej ~500 ms) niż tryb czatowy.
Czy system jest złożony z osobnych modułów (ASR + NLU + DM + NLG + TTS) czy zunifikowany w jednym modelu (LLM lub speech-to-speech).
Akceptowalny czas między końcem wypowiedzi użytkownika a początkiem odpowiedzi systemu. Decyduje o naturalności rozmowy głosowej.
Liczba i jakość obsługi języków oraz akcentów. Wpływa na zasięg geograficzny i dokładność ASR/NLU dla mniejszych języków.
Sposób zapewnienia, że system odpowiada zgodnie z faktami: czysty model, RAG nad dokumentami klienta, dostęp do API z aktualnymi danymi.
Kiedy i jak system przekazuje rozmowę człowiekowi: po N nieudanych próbach, na żądanie użytkownika, na podstawie sygnałów emocji.
Paradygmat wykonania
Współczesne implementacje oparte na LLM łączą NLU, dialog management i NLG w jednym wywołaniu modelu, znacznie upraszczając pipeline względem klasycznych systemów modułowych.
Polityka dialogu kieruje rozmowę między ścieżkami: bezpośrednia odpowiedź, pytanie doprecyzowujące, wywołanie narzędzia, eskalacja do człowieka. W systemach LLM-based routing realizowany jest przez decyzje modelu w kontekście promptu systemowego.
Równoległość
Równoległość pojawia się głównie międzysesyjnie (różni użytkownicy obsługiwani jednocześnie) oraz wewnątrz pojedynczej tury (równoległe wywołania narzędzi, RAG retrieval podczas generacji).
Wymagania sprzętowe
Inferencja LLM (NLU/dialog/NLG) oraz neuronowe ASR/TTS najefektywniej działają na GPU z tensor cores; tryb głosowy z budżetem <500 ms wymaga przyspieszenia sprzętowego.
Google deploys conversational AI (Google Assistant) on TPU; podobne rezultaty co GPU dla większości modeli inferencji.
Lekkie modele intent classification, NLG szablonowe i klasyczne ASR działają na CPU. Niewystarczające dla nowoczesnych LLM-based systemów w trybie głosowym czasu rzeczywistego.