NLI (No-code / No-click)
Jak działa
Pipeline składa się z czterech warstw: (1) wejście — tekst lub mowa (ASR), (2) rozumienie intencji — LLM lub klasyfikator NLU mapuje wypowiedź na schemat akcji + parametry, (3) realizacja — wywołanie narzędzi (function calling), zapytania do bazy (NL→SQL), generowanie dokumentu lub orkiestracja agenta, (4) zwrot rezultatu — naturalny tekst, dane strukturalne, dokument lub zmiana stanu UI. Kontekst sesji oraz pamięć (short-term + long-term) pozwalają na dialog wieloetapowy i odwołania anaforyczne.
Rozwiązany problem
Wysoki koszt poznawczy klasycznych GUI: użytkownik musi znać strukturę aplikacji, ścieżkę do funkcji i terminologię UI. NLI eliminuje ten koszt, pozwalając wyrazić cel bezpośrednio. Rozwiązuje też problem długiego onboardingu w aplikacjach enterprise oraz barierę dostępności (osoby z niepełnosprawnościami, użytkownicy mobilni, scenariusze hands-free).
Komponenty
Pole tekstowe lub mikrofon z ASR konwertujący mowę na tekst.
LLM lub model NLU mapujący wypowiedź na schemat akcji wraz z parametrami i kontekstem.
Mechanizm wywoływania funkcji, API i zapytań do baz, który realizuje rozpoznaną intencję.
Pamięć sesji oraz pamięć długoterminowa pozwalające utrzymać wątek i odwołania anaforyczne.
Warstwa zwrotna: tekst, dane strukturalne, dokument lub aktualizacja UI; opcjonalnie TTS.
Mechanizm pytań doprecyzowujących i degradacji do GUI/menu, gdy intencja jest niejednoznaczna.
Implementacja
Język naturalny jest wieloznaczny — bez pytań doprecyzowujących system wykonuje złe akcje.
W GUI funkcje są widoczne; w NLI użytkownik nie wie, co system potrafi — wymaga onboardingu i przykładów.
LLM może wywołać nieistniejącą funkcję lub podać złe parametry — konieczna walidacja schema.
„Usuń wszystkie" musi mieć etap potwierdzenia — w GUI chroni to confirm dialog, w NLI trzeba go dodać świadomie.
Każda interakcja to wywołanie LLM — wolniejsza i droższa od kliknięcia.
„Wybierz trzeci wiersz od góry, drugą kolumnę" — operacje pozycyjne są łatwiejsze klikiem.
Jakość ASR i NLU spada dla dialektów, akcentów i kodów branżowych.
Ewolucja
Szczegóły techniczne
Hiperparametry (konfigurowalne osie)
Tekst, mowa lub multimodalność (tekst + obraz + mowa).
Liczba i granularność narzędzi/funkcji udostępnionych modelowi.
Sposób ugruntowania odpowiedzi: RAG, struktura schema, ontologia, dokumenty.
Polityka degradacji: pytanie doprecyzowujące, sugestia GUI, odmowa.
Stopień losowości generacji — kluczowy dla operacji wykonawczych vs eksploracyjnych.