Dane

Stop Words

AktywnyOpublikowany

Bardzo częste słowa o niskiej wartości informacyjnej (np. "i", "w", "the"), zwykle usuwane na etapie preprocessingu tekstu.

Kluczowa innowacja

Redukuje wymiarowość i szum reprezentacji tekstu przez usunięcie słów obecnych w niemal każdym dokumencie.

Kategoria

Dane

Poziom abstrakcji

Primitive

Poziom operacji

Dane

Zastosowania

Preprocessing dla TF-IDF / Bag-of-WordsIndeksowanie w wyszukiwarkachRedukcja rozmiaru słownikaEkstrakcja słów kluczowych

Jak działa

Definiuje się listę stop-słów (statyczną dla języka lub wyznaczoną z korpusu np. przez wysokie df). Podczas tokenizacji tokeny obecne na liście są pomijane. Listy są zależne od języka i zadania — w niektórych zastosowaniach (np. wyszukiwanie fraz) stop-słów się nie usuwa.

Rozwiązany problem

Słowa funkcyjne dominują liczebnościowo, ale nie różnicują dokumentów. Ich usunięcie zmniejsza rozmiar słownika, przyspiesza przetwarzanie i poprawia jakość prostych modeli bag-of-words.