Dane

BoW

1954HistorycznyOpublikowany

Metoda reprezentacji tekstu jako wektora częstości słów, bez uwzględnienia ich kolejności.

Kluczowa innowacja

Reprezentacja dokumentu jako wielozbioru słów ignorująca kolejność, która umożliwia proste i wydajne obliczeniowo przetwarzanie tekstu.

Kategoria

Dane

Poziom abstrakcji

Primitive

Poziom operacji

Dane

Zastosowania

Klasyfikacja dokumentów (spam detection)Wyszukiwanie informacji (IR)Analiza sentymentu na prostych zbiorachBazowa reprezentacja dla Naive Bayes i SVMPorównywanie podobieństwa dokumentów

Jak działa

Budowany jest słownik wszystkich unikalnych słów w korpusie. Każdy dokument jest reprezentowany jako wektor o długości słownika, gdzie każda pozycja zawiera liczbę wystąpień danego słowa w dokumencie (lub 0/1 dla binarnej wersji). Kolejność słów jest całkowicie ignorowana.

Rozwiązany problem

Surowy tekst musi być skonwertowany na reprezentację numeryczną do przetwarzania przez algorytmy ML. BoW dostarcza najprostszą taką reprezentację bez skomplikowanego przetwarzania wstępnego.

Implementacja

Pułapki implementacyjne

Brak informacji o kolejności słówŚrednia

BoW traktuje "pies gryzie człowieka" i "człowiek gryzie psa" identycznie. Dla zadań zależnych od kolejności (sentyment, pytania) to krytyczne ograniczenie.

Wysoka wymiarowość dla dużych słownikówŚrednia

Dla słownika 100k słów każdy dokument to wektor 100k wymiarów — większość zer (sparse). Wymaga algorytmów obsługujących sparse vectors lub redukcji wymiarowości.

BoW

Jak działa

Rozwiązany problem

Implementacja

Paradygmat wykonania

Równoległość