Definiuje się listę stop-słów (statyczną dla języka lub wyznaczoną z korpusu np. przez wysokie df). Podczas tokenizacji tokeny obecne na liście są pomijane. Listy są zależne od języka i zadania — w niektórych zastosowaniach (np. wyszukiwanie fraz) stop-słów się nie usuwa.
Słowa funkcyjne dominują liczebnościowo, ale nie różnicują dokumentów. Ich usunięcie zmniejsza rozmiar słownika, przyspiesza przetwarzanie i poprawia jakość prostych modeli bag-of-words.
W zadaniach typu analiza sentymentu czy wyszukiwanie fraz słowa "nie", "to be" niosą sens — ich usunięcie szkodzi.
Domyślna angielska lista stop-słów jest bezużyteczna dla polskiego lub specjalistycznego korpusu.
Złożoność czasowa: O(n) z lookupem w zbiorze haszowym. Złożoność przestrzenna: O(|S|) zbiór stop-słów.
Statyczna lista językowa vs lista wyznaczona z korpusu (np. terminy o wysokim df / max_df).
Prosty filtr stringowy — działa wszędzie bez akceleracji.