Web-augmented LLM
Jak działa
Model otrzymuje dostęp do narzędzia web search lub innego mechanizmu retrieval. Najpierw generuje zapytania lub wybiera źródła, następnie pobiera relewantne wyniki i wykorzystuje je jako kontekst do stworzenia odpowiedzi. W bardziej zaawansowanych wariantach system potrafi też cytować źródła i wykonywać wieloetapowy research w sieci.
Rozwiązany problem
Zwykły LLM ma ograniczenia wynikające z daty odcięcia wiedzy i braku dostępu do bieżących informacji. Web-augmented LLM zmniejsza ten problem, korzystając z wyszukiwania internetowego oraz źródeł zewnętrznych w czasie inferencji.
Komponenty
Model LLM generuje ustrukturyzowane zapytanie wyszukiwarki (query) na podstawie pytania użytkownika lub bieżącego kontekstu rozumowania. Jakość zapytania determinuje trafność pobieranych wyników.
Zewnętrzny silnik wyszukiwarki internetowej lub interfejs przeglądarki wywoływany przez model w celu pobrania wyników. Zwraca listę wyników (tytuł, URL, snippet) lub pełną treść strony po nawigacji.
Oficjalna
Komponent przetwarzający wyniki wyszukiwarki przed wstrzyknięciem do kontekstu modelu: filtrowanie nieistotnych wyników, ekstrakcja relevantnych fragmentów z treści stron, skracanie do budżetu tokenowego. Może być osobnym modelem lub logiką deterministyczną.
Oficjalna
Mechanizm integracji pobranych treści webowych z kontekstem modelu — wyniki wyszukiwarki lub fragmenty stron są dołączane do promptu jako bloki 'obserwacji' lub 'wyników wyszukiwarki' przed wygenerowaniem finalnej odpowiedzi.
Oficjalna
Komponent lub mechanizm promptingowy wymuszający na modelu podanie URL lub tytułu źródeł, z których pochodzi informacja w wygenerowanej odpowiedzi. Kluczowy dla weryfikowalności i zgodności z wymaganiami prawnymi.
Oficjalna
Implementacja
Treści pobrane ze stron internetowych mogą zawierać złośliwe instrukcje, które model interpretuje jako polecenia systemowe (prompt injection przez obserwowaną treść). Szczególnie niebezpieczne przy automatycznym działaniu na podstawie pobranych wyników.
Model może przypisywać fakty do źródeł, które ich nie zawierają, cytować nieistniejące URL-e lub błędnie parafrazować treść znalezionych stron. Użytkownik może nie weryfikować podanych linków.
Wyniki wyszukiwarki mogą wskazywać na strony, które uległy zmianie, zostały usunięte lub zwracają błąd 404. Snippety z wyszukiwarki mogą być nieaktualne względem obecnej treści strony.
Pełne treści stron webowych (artykuły, dokumentacje) mogą mieć tysiące tokenów. Przy wielokrotnych wyszukiwaniach kontekst modelu szybko się przepełnia, co może powodować pominięcie wcześniejszych wyników lub instrukcji systemowych.
Modele z model-driven search mogą wyszukiwać zbyt często (dla pytań, które mogą odpowiedzieć z wiedzy parametrycznej) lub zbyt rzadko (dla pytań wymagających aktualnych informacji). Oba błędy zwiększają opóźnienie lub obniżają jakość odpowiedzi.
Ewolucja
Nakano i in. (OpenAI) trenują GPT-3 do obsługi tekstowej przeglądarki internetowej (akcje: search, click, quote, scroll) przez uczenie ze wzmocnieniem z ludzką informacją zwrotną. Pierwszy formalny system Web-augmented LLM z cytowaniem źródeł i uczeniem z nagród opartych na preferencjach ludzkich.
Yao i in. proponują ReAct: model naprzemiennie generuje ślad rozumowania i wywołania narzędzi (w tym wyszukiwarki Wikipedia/Google) bez RLHF. Wzorzec promptingowy dla Web-augmented LLM bez specjalistycznego treningu.
Perplexity AI uruchamia komercyjny produkt oparty na wyszukiwaniu sieciowym jako podstawowym źródle każdej odpowiedzi LLM z inline cytowaniami. Popularyzuje Web-augmented LLM jako produkt konsumencki.
Microsoft integruje GPT-4 z wyszukiwarką Bing w Bing Chat (luty 2023) — pierwsza masowa integracja wyszukiwania webowego z dużym komercyjnym LLM, osiągając setki milionów użytkowników.
OpenAI udostępnia przeglądanie sieci (web browsing) w ChatGPT dla użytkowników Plus (maj 2023) oraz ekosystem wtyczek z narzędziami wyszukiwania. Ponownie włączone w listopadzie 2023 przez integrację z Bing.
Anthropic, OpenAI i Google udostępniają wyszukiwanie webowe jako oficjalne narzędzie dostępne przez API (tool use / function calling). Web-augmented LLM staje się powszechnym, standaryowym wzorcem produkcyjnym a nie eksperymentalnym.
Hiperparametry (konfigurowalne osie)
Wybór silnika wyszukiwarki lub API: Bing, Google, Tavily, SerpAPI, DuckDuckGo. Wpływa na pokrycie, aktualność i koszt wyszukiwania.
Liczba wyników (snippetów lub stron) pobieranych na jedno zapytanie i wstrzykiwanych do kontekstu modelu. Kompromis między jakością a długością kontekstu.
Czy system używa wyłącznie snippetów wyników wyszukiwarki, czy pobiera pełne treści stron webowych.
Czy wyszukiwanie jest zawsze aktywowane (forced), aktywowane przez model (model-driven), czy aktywowane przez heurystykę (np. słowa kluczowe jak 'aktualne', 'najnowsze').
Czy i w jakim formacie model cytuje źródła webowe w odpowiedzi — inline linki, numeryczne odsyłacze, lista bibliografii na końcu.
Wąskie gardło obliczeniowe
Wywołanie wyszukiwarki dodaje 200–2000 ms opóźnienia sieciowego na zapytanie. Po wstrzyknięciu wielu wyników lub pełnych stron do kontekstu, długość sekwencji rośnie, zwiększając koszt inferencji LLM proporcjonalnie do długości kontekstu.
Paradygmat wykonania
W systemach z opcjonalnym wyszukiwaniem (np. Claude z web search) model sam decyduje czy wywołać wyszukiwarkę. W systemach z wymuszonym wyszukiwaniem (np. Perplexity AI) wyszukiwanie jest zawsze aktywowane niezależnie od zapytania.
Model decyduje kiedy i z jakim zapytaniem wywołać wyszukiwarkę — na podstawie oceny czy pytanie wymaga aktualnych informacji, zewnętrznych faktów lub weryfikacji. Decyzja może być endogeniczna (model generuje wywołanie narzędzia) lub egzogeniczna (system zawsze przeszukuje sieć).
Równoległość
Latencja sieci przy pobieraniu wyników wyszukiwarki dominuje nad kosztem inferencji LLM dla krótkich kontekstów. Równoległe wyszukiwania redukują całkowite opóźnienie przy wielu zapytaniach.
Wymagania sprzętowe
Web-augmented LLM jest wzorcem architektonicznym stosowanym na poziomie środowiska uruchomieniowego. Wymagania sprzętowe determinowane są wyłącznie przez bazowy LLM i infrastrukturę sieciową. Wywołania wyszukiwarki przez API nie dodają własnych wymagań sprzętowych.